Novi okvir 'DocGraphLM' poboljšava razumijevanje dokumenata

Istraživači iz JPMorgan AI Research i Dartmouth College razvili su inovativni okvir pod nazivom ‘DocGraphLM’ koji značajno poboljšava razumijevanje vizualno bogatih dokumenata. Izazov preciznog obrade i tumačenja podataka iz različitih formata dokumenata, posebno vizualno bogatih dokumenata poput poslovnih obrazaca, računa i faktura, predstavlja urgentno pitanje.

Tradicionalne metode oslanjaju se na modele temeljene na transformatorima i Grafičke neuronske mreže (GNN) za tumačenje dokumenata. Međutim, ove metode imaju poteškoća u hvatanju prostornih odnosa između elemenata poput ćelija tablica i njihovih zaglavlja ili teksta preko preloma linije.

DocGraphLM nudi novi pristup kombiniranjem snage jezičnih modela s strukturnim uvidima koje pružaju GNN. Ova jedinstvena integracija omogućava robustnije prikazivanje dokumenata, omogućujući precizno modeliranje složenih odnosa i struktura u vizualno bogatim dokumentima.

U srži, DocGraphLM uvodi zajedničku arhitekturu enkodera za prikazivanje dokumenata i inovativan pristup predviđanju veza za rekonstrukciju grafova dokumenata. Izdvojna značajka modela je njegova sposobnost predviđanja smjera i udaljenosti između čvorova u grafikonu dokumenata. Primjenom logaritamske transformacije za normalizaciju udaljenosti, model učinkovito hvata složene rasporede vizualno bogatih dokumenata.

Što se tiče performansi, DocGraphLM je nadmašio postojeće modele u zadacima ekstrakcije informacija i odgovaranja na pitanja na standardnim skupovima podataka. Integracija grafičkih značajki poboljšala je točnost modela i ubrzala proces učenja tijekom obuke, rezultirajući bržom i preciznijom ekstrakcijom informacija.

Razvoj DocGraphLM predstavlja značajan napredak u području razumijevanja dokumenata. Njegov inovativni okvir pruža poboljšanu točnost i učinkovitost pri izvlačenju informacija iz vizualno bogatih dokumenata. Ovaj napredak otvara nove mogućnosti za učinkovito izvlačenje i analizu podataka u današnjem digitalnom dobu.

The source of the article is from the blog exofeed.nl

Web Story