فریمورک جدید 'DocGraphLM' به استناد اسناد می‌اندیشد

محققان موسسه تحقیقات هوش مصنوعی JPMorgan و دانشگاه دارتموت فریمورکی نوآورانه به نام ‘DocGraphLM’ توسعه داده‌اند که تفهیم اسناد با دارایی بصری را به طور قابل توجهی بهبود می‌بخشد. چالش پردازش و تفسیر صحیح داده‌ها از فرمت‌های مختلف اسناد، به ویژه اسنادی با دارایی بصری مانند فرم‌های تجاری، رسیدها و فاکتورها، یک مسئله فوری بوده است.

روش‌های سنتی برای تفسیر اسناد بر روی مدل‌های مبتنی بر ترانسفورمر و شبکه‌های عصبی گراف (GNNs) ها بنا شده است. با این حال، این روش‌ها دچار مشکلاتی در گرفتن به تصویر روابط مکانی بین عناصر مانند سلول‌های جدول و سربرگ‌های آنها یا متن‌ها در طول خطوط می‌شوند.

DocGraphLM با ترکیب قوا ویژگی‌های مدل‌های زبانی با بینش ساختاری ارائه شده توسط GNNs، اقدامی تازه را ارائه می‌دهد. این ادغام منحصربه‌فرد امکان نمایش دقیق‌تری از ارتباطات و ساختارهای پیچیده در اسناد با دارایی بصری را فراهم می‌کند.

اصلی‌ترین ویژگی DocGraphLM، معماری کدگذار مشترک برای نمایش اسناد و رویکرد پیش‌بینی لینک برای بازسازی گرافیک اسناد است. ویژگی برجسته این مدل، قابلیت پیش‌بینی جهت و فاصله بین گره‌ها در گرافیک اسناد است. با استفاده از تبدیل لگاریتمی برای نرمال‌سازی فواصل، مدل به طور موثر تنظیمات پیچیدهٔ اسناد با دارایی بصری را ارائه می‌دهد.

از نظر عملکرد، DocGraphLM نسبت به مدل‌های موجود در استخراج اطلاعات و پاسخ به سؤالات در مجموعه‌های استاندارد عملکرد بهتری داشت. ادغام ویژگی‌های گراف عملکرد مدل را بهبود بخشید و در فرآیند آموزش تسریع و دقت استخراج اطلاعات را افزایش داد.

توسعه DocGraphLM یکقدمتر در زمینه درک اسناد بهمراه دارد. فریمورک نوآورانهٔ آن دقت و کارایی بالاتری در استخراج اطلاعات از اسناد با دارایی بصری را فراهم می‌کند. این پیشرفت امکانات جدیدی را برای استخراج و تحلیل داده‌ها در عصر دیجیتال امروزی به وجود می‌آورد.

The source of the article is from the blog elektrischnederland.nl