در دنیای هوش مصنوعی، مدلهای زبان دیداری (VLMs) به عنوان یک ادغام نوآورانه از دیداری کامپیوتری (CV) و پردازش زبان طبیعی (NLP) ظاهر شدهاند. ترکیب این دو تخصص هدف دارد که با تفسیر و تولید محتوا که به طور سلسه تصاویر و کلمات را ترکیب میکند، به تقلید از فهم شبیه به انسان بپردازد. این ادغام چالشهای پیچیدهای را ایجاد کرده است که محققین در سراسر جهان را به خود جلب کرده است.
پیشرفتهای اخیر در این حوزه مدلهایی همچون LLaVA و BLIP-2 را معرفی کردهاند که از مجموعههای گستردهای از جفتهای تصویر-متن برای بهبود همسانی چند مدالی استفاده کردهاند. این پیشرفتها بر تقویت وضوح تصویر، بهبود کیفیت توکن و رفع مشکلات محاسباتی مرتبط با پردازش تصاویر با وضوح بالا تمرکز داشتهاند. با این حال، آنها با مسائل مربوط به تاخیر و نیاز به منابع آموزشی گسترده روبرو شدهاند.
نوآوریهای ارائه شده توسط محققین دانشگاه چینی هنگ کنگ و SmartMore به وجود یک چارچوب جدید به نام Mini-Gemini منجر شده است که با ارتقاء پردازش ورودی چند مدالی، مرزهای مدلهای زبان دیداری را گسترش میدهد. آنچه Mini-Gemini را از مدلهای موجود متمایز میکند، اجرای یک سیستم دوگانه-انکودر و یک تکنیک استخراج اطلاعات پچ منحصر به فرد به همراه مجموعه داده با کیفیت بالا ویژهای است. این پیشرفتها باعث میشوند که Mini-Gemini به پردازش بهینه تصاویر با وضوح بالا و تولید محتوای بصری و متنی حاوی محتوای کانتکست باز شود.
منهاج کار Mini-Gemini شامل یک سیستم دوگانه-انکودر است که شامل یک شبکه عصبی کانولوشن برای پردازش دقیق تصویر و یک تکنیک استخراج اطلاعات پچ برای برداشت زیباییهای بصری دقیق است. این چارچوب بر روی یک مجموعه داده ترکیبی آموزش داده میشود که شامل جفتهای تصویر-متن با کیفیت بالا و دستورالعملهای محوری است که جهت افزایش عملکرد مدل و گسترش دامنه کاربرد آن مورد استفاده قرار میگیرد. Mini-Gemini با مدلهای زبان بزرگ (LLMs) مختلف سازگار است که پیشامدهای هر یک به هر یک را ممکن میکند. این راهاندازی امکان میدهد Mini-Gemini نتایج برتری را در بنچمارکهای صفر-شات به دست آورد و وظایف چند مدالی پیشرفته را پشتیبانی کند.
در ارزیابی کارآیی Mini-Gemini، این چارچوب در چند بنچمارک صفر-شات عملکرد برجستهای از خود نشان داد. به ویژه، در بنچمارکهای MM-Vet، MMBench و VQAT مدل Gemini Pro را پیشگرفت و به ترتیب امتیازهای 79.6 و 75.6 را کسب کرد. زمانی که با Hermes-2-Yi-34B پیکربندی شد، Mini-Gemini امتیاز 70.1 را در بنچمارک VQAT به دست آورد و مدل موجود LLaVA-1.5 را در تمام معیارهای ارزیابی فراتر زد. این نتایج قابلیتهای پیشرفتهی پردازش چند مدالی Mini-Gemini را تایید کرده و به فعالیت و دقت آن در مقابله با وظایف پیچیده بصری و متنی تاکید میکند.
هرچند Mini-Gemini یک گام مهم در قابلیتهای هوش مصنوعی چند مدالی را نشان داده است، اما محققین اعلام میکنند که هنوز در فهم و قابلیتهای استنتاجی بصری آن جای کار دارد. آنها مدعی هستند که کارهای آینده برای بررسی روشهای پیشرفته در فهم، استنتاج و تولید بصری انجام خواهد شد.
به طور خلاصه، Mini-Gemini یک دوره جدید را به مدلهای زبان دیداری از طریق سیستم دوگانه-انکودر، تکنیک استخراج اطلاعات پچ و مجموعه داده با کیفیت بالا معرفی میکند. با عملکرد استثنایی در بنچمارکهای متعدد، Mini-Gemini از مدلهای استوار پیشی گرفته و راه را برای پیشرفتهای در هوش مصنوعی چند مدالی هموار میکند. در حالیکه محققین در کار خود ادامه میدهند، آنها سعی دارند تا فهم بصری و قابلیتهای استنتاجی Mini-Gemini را ارتقا دهند و مرزهای فناوری هوش مصنوعی را گام به گام گسترش دهند.
منبع: Marktechpost
سوالات متداول
The source of the article is from the blog crasel.tk