محققان موسسه تحقیقات هوش مصنوعی JPMorgan و دانشگاه دارتموت فریمورکی نوآورانه به نام ‘DocGraphLM’ توسعه دادهاند که تفهیم اسناد با دارایی بصری را به طور قابل توجهی بهبود میبخشد. چالش پردازش و تفسیر صحیح دادهها از فرمتهای مختلف اسناد، به ویژه اسنادی با دارایی بصری مانند فرمهای تجاری، رسیدها و فاکتورها، یک مسئله فوری بوده است.
روشهای سنتی برای تفسیر اسناد بر روی مدلهای مبتنی بر ترانسفورمر و شبکههای عصبی گراف (GNNs) ها بنا شده است. با این حال، این روشها دچار مشکلاتی در گرفتن به تصویر روابط مکانی بین عناصر مانند سلولهای جدول و سربرگهای آنها یا متنها در طول خطوط میشوند.
DocGraphLM با ترکیب قوا ویژگیهای مدلهای زبانی با بینش ساختاری ارائه شده توسط GNNs، اقدامی تازه را ارائه میدهد. این ادغام منحصربهفرد امکان نمایش دقیقتری از ارتباطات و ساختارهای پیچیده در اسناد با دارایی بصری را فراهم میکند.
اصلیترین ویژگی DocGraphLM، معماری کدگذار مشترک برای نمایش اسناد و رویکرد پیشبینی لینک برای بازسازی گرافیک اسناد است. ویژگی برجسته این مدل، قابلیت پیشبینی جهت و فاصله بین گرهها در گرافیک اسناد است. با استفاده از تبدیل لگاریتمی برای نرمالسازی فواصل، مدل به طور موثر تنظیمات پیچیدهٔ اسناد با دارایی بصری را ارائه میدهد.
از نظر عملکرد، DocGraphLM نسبت به مدلهای موجود در استخراج اطلاعات و پاسخ به سؤالات در مجموعههای استاندارد عملکرد بهتری داشت. ادغام ویژگیهای گراف عملکرد مدل را بهبود بخشید و در فرآیند آموزش تسریع و دقت استخراج اطلاعات را افزایش داد.
توسعه DocGraphLM یکقدمتر در زمینه درک اسناد بهمراه دارد. فریمورک نوآورانهٔ آن دقت و کارایی بالاتری در استخراج اطلاعات از اسناد با دارایی بصری را فراهم میکند. این پیشرفت امکانات جدیدی را برای استخراج و تحلیل دادهها در عصر دیجیتال امروزی به وجود میآورد.
The source of the article is from the blog elektrischnederland.nl