Исследователи из JPMorgan AI Research и Dartmouth College создали инновационную структуру под названием ‘DocGraphLM’, которая значительно улучшает понимание визуально насыщенных документов. Проблема точной обработки и интерпретации данных из различных форматов документов, особенно визуально насыщенных документов, таких как бизнес-формы, квитанции и счета-фактуры, является актуальной проблемой.
Традиционные методы основаны на моделях на основе трансформаторов и графовых нейронных сетях (GNN) для интерпретации документов. Однако эти методы затрудняют улавливание пространственных отношений между элементами, такими как ячейки таблицы и их заголовки или текст через разрывы строк.
DocGraphLM предлагает новый подход, объединяя преимущества языковых моделей с структурными исследованиями, предоставляемыми GNN. Эта уникальная интеграция позволяет создавать более надежное представление документа, позволяя точно моделировать сложные взаимосвязи и структуры визуально насыщенных документов.
В основе DocGraphLM лежит архитектура совместного кодировщика для представления документа и инновационный подход к предсказанию связей для восстановления графов документа. Особенностью модели является ее способность предсказывать направление и расстояние между узлами в графе документа. Применяя логарифмическое преобразование для нормализации расстояний, модель эффективно улавливает сложные композиции визуально насыщенных документов.
В терминах производительности DocGraphLM превзошёл существующие модели в задачах извлечения информации и вопросно-ответных задачах на стандартных наборах данных. Интеграция графических функций повысила точность модели и ускорила процесс обучения, что привело к более быстрому и более точному извлечению информации.
Разработка DocGraphLM представляет собой значительный прорыв в области понимания документов. Инновационная структура обеспечивает повышенную точность и эффективность извлечения информации из визуально насыщенных документов. Этот прогресс открывает новые возможности для эффективного извлечения и анализа данных в современной цифровой эпохе.
The source of the article is from the blog qhubo.com.ni