Uue raamistiku “DocGraphLM” parendab dokumentide mõistmist

JPMorgani tehisintellekti uurimisosakonna ja Dartmouthi kolledži teadlased on välja töötanud innovaatilise raamistiku nimega “DocGraphLM”, mis parandab oluliselt visuaalselt rikaste dokumentide mõistmist. Täpset andmete töötlemist ja tõlgendamist erinevatest dokumendi vormingutest, eriti visuaalselt rikastest dokumentidest nagu ärivormid, kviitungid ja arved, on seni peetud oluliseks probleemiks.

Traditsioonilised meetodid on kasutanud dokumendi tõlgendamiseks transformeritel põhinevaid mudeleid ja graafikonvolutsioonilisi võrgustikke (GNN-id). Siiski on neil meetoditel olnud raskusi ruumiliste suhete teisendamisega selliste elementide vahel nagu tabeliruudud ja nende päised või tekstid ridu katkestades.

DocGraphLM pakub uut lähenemisviisi, ühendades keelemodelle ja GNN-ide struktuursed teadmised. Selline ainulaadne integreerimine võimaldab tugevamat dokumendi esitust, võimaldades täpsete suhete ja struktuuride modelleerimist visuaalselt rikastes dokumentides.

DocGraphLM tuumaks on ühtlase kodeerija arhitektuuri kasutamine dokumendi esitamiseks ja uuendusliku linkide ennustamise lähenemisviisi kasutamine dokumendi graafide taastamiseks. Mudeli silmapaistev omadus seisneb selle võimes ennustada sõlmede suunda ja kaugust dokumendi graafis. Logaritmilise teisenduse abil normaliseerides kauguseid, suudab mudel tõhusalt esitada visuaalselt rikaste dokumentide keerukaid paigutusi.

Esitamisvõime osas ületas DocGraphLM olemasolevaid mudeleid teabekorjamise ja küsimustele vastamise ülesannetes standardandmekogumite põhjal. Graafifunktsioonide integreerimine parandas modeli täpsust ja kiirendas õppimisprotsessi treeningu käigus, tulenedes kiiremast ja täpsemast teabekorjamisest.

DocGraphLM-i arendamine tähistab olulist edasiminekut dokumendimõistmise valdkonnas. Selle uuenduslik raamistik pakub täiustatud täpsust ja efektiivsust teabe eraldamisel visuaalselt rikastest dokumentidest. See edasiminek avab uued võimalused tõhusaks andmete eraldamiseks ja analüüsimiseks tänapäeva digitaalses ajastus.

The source of the article is from the blog crasel.tk

Privacy policy
Contact