Výskumníci v spoločnosti JPMorgan AI Research a na Dartmouth College vyvinuli inovatívny rámec nazvaný ‚DocGraphLM‘, ktorý výrazne zlepšuje porozumenie dokumentom s bohatou vizuálnou obsluhou. Výzvou pri presnom spracovaní a interpretácii údajov z rôznych dokumentových formátov, najmä z dokumentov s bohatou vizuálnou obsluhou, ako sú obchodné formuláre, účtenky a faktúry, bola stále aktuálna problémová otázka.
Tradičné metódy sa spoliehali na transformačné modely a grafické neurónové siete (GNN) pre interpretáciu dokumentov. Avšak tieto metódy sa ťažko zaoberajú zachytením priestorových vzťahov medzi elementmi, ako sú bunky tabuľky a ich hlavičky alebo text cez zlomy riadkov.
DocGraphLM ponúka nový prístup spojením síl modelov jazyka s poznatkami poskytovanými GNN. Táto jedinečná integrácia umožňuje robustnejšie zobrazenie dokumentu a presnú modeláciu komplikovaných vzťahov a štruktúr v dokumentoch s bohatou vizuálnou obsluhou.
DocGraphLM sa v podstate zaoberá spoločným zakódovaním dokumentovej reprezentácie a inovatívnym prístupom k predpovedaniu prepojení grafu dokumentu. Výraznou vlastnosťou tohto modelu je schopnosť predikovať smer a vzdialenosť medzi uzlami v grafe dokumentu. Použitím logaritmickej transformácie pre normalizáciu vzdialeností model efektívne zachytáva zložité rozloženie dokumentov s bohatou vizuálnou obsluhou.
Výkonnostne sa DocGraphLM prekonalo existujúce modely pri extrakcii informácií a odpovedaní na otázky na štandardných datasetoch. Integrácia grafických prvkov zlepšila presnosť modelu a urýchlila proces učenia počas trénovania, čo viedlo k rýchlejšej a presnejšej extrakcii informácií.
Vývoj DocGraphLM predstavuje významný pokrok v oblasti porozumenia dokumentom. Jeho inovatívny rámec poskytuje zvýšenú presnosť a efektivitu pri extrakcii informácií z dokumentov s bohatou vizuálnou obsluhou. Tento pokrok otvára nové možnosti pre efektívnu extrakciu dát a analýzu v dnešnej digitálnej dobe.
The source of the article is from the blog zaman.co.at