Nový rámec 'DocGraphLM' zlepšuje porozumění dokumentům

Výzkumníci společnosti JPMorgan AI Research a Dartmouth College vyvinuli inovativní rámec nazvaný ‚DocGraphLM‘, který významně zlepšuje porozumění vizuálně bohatým dokumentům. Výzvou je přesné zpracování a interpretace dat z různých formátů dokumentů, zejména vizuálně bohatých dokumentů, jako jsou obchodní formuláře, účtenky a faktury.

Tradiční metody se opíraly o modely založené na transformátorech a grafické neuronové sítě (GNN) pro interpretaci dokumentů. Tyto metody ale mají potíže s zachycením prostorových vztahů mezi prvkami, jako jsou buňky tabulek a jejich hlavičky, nebo text přes řádkové zlomy.

DocGraphLM nabízí nový přístup spojením sil jazykových modelů se strukturálními poznatky poskytovanými GNN. Tato jedinečná integrace umožňuje robustnější reprezentaci dokumentů a přesné modelování složitých vztahů a struktur v vizuálně bohatých dokumentech.

V jádru DocGraphLM představuje společnou architekturu enkodéru pro reprezentaci dokumentů a inovativní přístup k predikci spojení pro rekonstrukci grafů dokumentů. Významnou vlastností modelu je jeho schopnost předpovídat směr a vzdálenost mezi uzly v grafu dokumentu. Použitím logaritmické transformace k normalizaci vzdáleností model efektivně zachycuje složité uspořádání vizuálně bohatých dokumentů.

Pokud jde o výkon, DocGraphLM překonal existující modely ve výběru informací a odpovídání na otázky na standardních datových sadách. Integrace grafických prvků zlepšila přesnost modelu a urychlila proces učení během trénování, což vedlo k rychlejšímu a přesnějšímu extrahování informací.

Vývoj DocGraphLM představuje významný pokrok ve sféře porozumění dokumentům. Jeho inovativní rámec poskytuje zlepšenou přesnost a efektivitu při extrahování informací z vizuálně bohatých dokumentů. Tento pokrok otevírá nové možnosti pro efektivní extrakci a analýzu dat v dnešní digitální době.

The source of the article is from the blog oinegro.com.br