Nuovo Framework "DocGraphLM" Migliora la Comprensione dei Documenti

Ricercatori di JPMorgan AI Research e del Dartmouth College hanno sviluppato un innovativo framework chiamato “DocGraphLM” che migliora significativamente la comprensione dei documenti ricchi di elementi visivi. La sfida di elaborare e interpretare accuratamente i dati da diversi formati di documenti, specialmente quelli con elementi visivi come moduli aziendali, ricevute e fatture, è stata una questione critica.

I metodi tradizionali si sono basati su modelli basati su trasformatori e reti neurali grafiche (GNNs) per l’interpretazione dei documenti. Tuttavia, questi metodi faticano a catturare le relazioni spaziali tra elementi come celle di una tabella e i relativi titoli o testo che si estende su più righe.

DocGraphLM offre un nuovo approccio unendo i punti di forza dei modelli di linguaggio con le intuizioni strutturali fornite dalle GNNs. Questa integrazione unica consente una rappresentazione dei documenti più robusta, consentendo la modellazione accurata di relazioni complesse e strutture nei documenti ricchi di elementi visivi.

Al suo cuore, DocGraphLM introduce un’architettura comune per la rappresentazione dei documenti e un innovativo approccio per la predizione dei collegamenti per ricostruire i grafi dei documenti. La caratteristica principale del modello è la sua capacità di prevedere la direzione e la distanza tra i nodi in un grafo di documenti. Applicando una trasformazione logaritmica per normalizzare le distanze, il modello cattura efficacemente le complesse disposizioni dei documenti ricchi di elementi visivi.

In termini di prestazioni, DocGraphLM ha superato i modelli esistenti nell’estrazione di informazioni e nelle attività di domande e risposte su set di dati standard. L’integrazione delle caratteristiche grafiche ha migliorato l’accuratezza del modello e accelerato il processo di apprendimento durante la formazione, ottenendo un’estrazione di informazioni più rapida ed accurata.

Lo sviluppo di DocGraphLM rappresenta un significativo passo avanti nel campo della comprensione dei documenti. Il suo innovativo framework offre una maggiore accuratezza ed efficienza nell’estrazione di informazioni dai documenti ricchi di elementi visivi. Questo avanzamento apre nuove possibilità per l’estrazione e l’analisi efficiente dei dati nell’era digitale di oggi.

The source of the article is from the blog zaman.co.at