Nowa platforma 'DocGraphLM' wzmacnia zrozumienie dokumentów

Naukowcy z JPMorgan AI Research oraz Dartmouth College opracowali innowacyjną platformę o nazwie 'DocGraphLM’, która znacząco poprawia zrozumienie dokumentów zawierających dużą ilość treści wizualnych. Wyzwanie polegające na dokładnym przetwarzaniu i interpretacji danych z różnych formatów dokumentów, zwłaszcza takich jak formularze biznesowe, paragony i faktury, było dotąd ważnym problemem.

Tradycyjne metody polegały na modelach opartych na transformatorach oraz Grafowych Sieciach Neuronowych (GNNs) do interpretacji dokumentów. Jednak te metody miały trudności w reprezentowaniu relacji przestrzennych między elementami takimi jak komórki tabeli i ich nagłówki czy teksty rozciągające się na kilka linii.

DocGraphLM oferuje nowe podejście, łącząc w sobie moc modeli językowych oraz spostrzeżeń strukturalnych, jakie daje GNN. Ta unikalna integracja pozwala na bardziej solidne reprezentowanie dokumentów, umożliwiając dokładne modelowanie złożonych relacji i struktur w dokumentach zawierających dużo treści wizualnych.

W centrum DocGraphLM znajduje się architektura wspólnego enkodera do reprezentacji dokumentów oraz innowacyjna metoda przewidywania połączeń do odtwarzania grafów dokumentów. Najważniejszą cechą tego modelu jest jego zdolność do przewidywania kierunku i odległości między węzłami w grafie dokumentu. Dzięki zastosowaniu logarytmicznej transformacji w celu znormalizowania odległości, model efektywnie uwzględnia złożone układy dokumentów zawierających dużo treści wizualnych.

Pod względem wydajności DocGraphLM przewyższył istniejące modele w zadaniach ekstrakcji informacji oraz odpowiadania na pytania na standardowych zbiorach danych. Integracja cech grafów poprawiła dokładność modelu i przyspieszyła proces uczenia podczas szkolenia, co przekłada się na szybszą i bardziej precyzyjną ekstrakcję informacji.

Rozwój DocGraphLM stanowi znaczący postęp w dziedzinie zrozumienia dokumentów. Jego innowacyjna platforma zapewnia większą dokładność i wydajność w ekstrakcji informacji z dokumentów zawierających dużą ilość treści wizualnych. Ten postęp otwiera nowe możliwości efektywnej ekstrakcji i analizy danych w dzisiejszych czasach cyfrowych.

The source of the article is from the blog elblog.pl