Nuevo marco de trabajo ‘DocGraphLM’ mejora la comprensión de documentos

Investigadores de JPMorgan AI Research y Dartmouth College han desarrollado un innovador marco de trabajo llamado ‘DocGraphLM’ que mejora significativamente la comprensión de documentos visualmente ricos. El desafío de procesar e interpretar de manera precisa datos de diversos formatos de documento, especialmente documentos visualmente ricos como formularios comerciales, recibos y facturas, ha sido un problema apremiante.

Los métodos tradicionales se han basado en modelos basados en transformadores y Redes Neuronales Gráficas (GNNs) para la interpretación de documentos. Sin embargo, estos métodos tienen dificultades para capturar las relaciones espaciales entre elementos como celdas de tabla y sus encabezados o texto a través de saltos de línea.

DocGraphLM ofrece un enfoque nuevo al combinar las fortalezas de los modelos de lenguaje con las percepciones estructurales proporcionadas por las GNNs. Esta integración única permite una representación de documentos más robusta, lo que posibilita el modelado preciso de relaciones e estructuras intrincadas en documentos visualmente ricos.

En su núcleo, DocGraphLM presenta una arquitectura conjunta de codificador para la representación de documentos y un enfoque innovador de predicción de enlaces para reconstruir gráficos de documentos. La característica destacada del modelo es su capacidad para predecir la dirección y distancia entre nodos en un gráfico de documentos. Al aplicar una transformación logarítmica para normalizar las distancias, el modelo captura efectivamente los diseños complejos de documentos visualmente ricos.

En términos de rendimiento, DocGraphLM superó a los modelos existentes en tareas de extracción de información y respuesta a preguntas en conjuntos de datos estándar. La integración de características de gráficos mejoró la precisión del modelo y aceleró el proceso de aprendizaje durante el entrenamiento, lo que resultó en una extracción de información más rápida y precisa.

El desarrollo de DocGraphLM representa un avance significativo en el campo de la comprensión de documentos. Su marco de trabajo innovador proporciona una precisión y eficiencia mejoradas en la extracción de información de documentos visualmente ricos. Este avance abre nuevas posibilidades para la extracción y análisis eficientes de datos en la era digital actual.

The source of the article is from the blog lisboatv.pt

Privacy policy
Contact