Новая структура ‘DocGraphLM’ улучшает понимание документов

Исследователи из JPMorgan AI Research и Dartmouth College создали инновационную структуру под названием ‘DocGraphLM’, которая значительно улучшает понимание визуально насыщенных документов. Проблема точной обработки и интерпретации данных из различных форматов документов, особенно визуально насыщенных документов, таких как бизнес-формы, квитанции и счета-фактуры, является актуальной проблемой.

Традиционные методы основаны на моделях на основе трансформаторов и графовых нейронных сетях (GNN) для интерпретации документов. Однако эти методы затрудняют улавливание пространственных отношений между элементами, такими как ячейки таблицы и их заголовки или текст через разрывы строк.

DocGraphLM предлагает новый подход, объединяя преимущества языковых моделей с структурными исследованиями, предоставляемыми GNN. Эта уникальная интеграция позволяет создавать более надежное представление документа, позволяя точно моделировать сложные взаимосвязи и структуры визуально насыщенных документов.

В основе DocGraphLM лежит архитектура совместного кодировщика для представления документа и инновационный подход к предсказанию связей для восстановления графов документа. Особенностью модели является ее способность предсказывать направление и расстояние между узлами в графе документа. Применяя логарифмическое преобразование для нормализации расстояний, модель эффективно улавливает сложные композиции визуально насыщенных документов.

В терминах производительности DocGraphLM превзошёл существующие модели в задачах извлечения информации и вопросно-ответных задачах на стандартных наборах данных. Интеграция графических функций повысила точность модели и ускорила процесс обучения, что привело к более быстрому и более точному извлечению информации.

Разработка DocGraphLM представляет собой значительный прорыв в области понимания документов. Инновационная структура обеспечивает повышенную точность и эффективность извлечения информации из визуально насыщенных документов. Этот прогресс открывает новые возможности для эффективного извлечения и анализа данных в современной цифровой эпохе.

The source of the article is from the blog qhubo.com.ni

Privacy policy
Contact