新的框架“DocGraphLM”增强文档理解

美国摩根大通AI研究与达特茅斯学院的研究人员共同开发了一种名为“DocGraphLM”的创新框架，该框架显著改进了对视觉丰富文档的理解能力。准确处理和解读来自各种文档格式的数据，特别是商业表格、收据和发票等视觉丰富的文档，一直是一个紧迫的问题。

传统方法依靠基于Transformer的模型和图神经网络（GNN）进行文档解释。然而，这些方法往往难以捕捉表格单元及其标题之间或跨行换行的空间关系。

DocGraphLM通过将语言模型的优势与GNN提供的结构洞察力相结合，提供了一种新的方法。这种独特的集成方法可以更好地表示文档，从而实现对视觉丰富文档中复杂关系和结构的准确建模。

在核心部分，DocGraphLM引入了一种用于文档表示的联合编码器架构，以及一种创新的链接预测方法，用于重构文档图。模型的突出特点是它能够预测文档图中节点之间的方向和距离。通过对距离进行对数转换进行标准化，模型有效地捕捉到视觉丰富文档的复杂布局。

在性能方面，DocGraphLM在标准数据集上在信息提取和问答任务中表现优于现有模型。图形特征的整合提高了模型的准确性，并加速了训练过程中的学习，从而实现了更快速、更准确的信息提取。

DocGraphLM的开发代表着文档理解领域的一大飞跃。其创新框架提供了从视觉丰富文档中提取信息的增强准确性和效率。这一进步为在当今数字时代提供了高效的数据提取和分析的新可能性。

The source of the article is from the blog smartphonemagazine.nl