تکنولوژی‌ Mini-Gemini: پیشروی در مدل‌های زبان دیداری از طریق پردازش چند مدالی

در دنیای هوش مصنوعی، مدل‌های زبان دیداری (VLMs) به عنوان یک ادغام نوآورانه از دیداری کامپیوتری (CV) و پردازش زبان طبیعی (NLP) ظاهر شده‌اند. ترکیب این دو تخصص هدف دارد که با تفسیر و تولید محتوا که به طور سلسه تصاویر و کلمات را ترکیب می‌کند، به تقلید از فهم شبیه به انسان بپردازد. این ادغام چالش‌های پیچیده‌ای را ایجاد کرده است که محققین در سراسر جهان را به خود جلب کرده است.

پیشرفت‌های اخیر در این حوزه مدل‌هایی همچون LLaVA و BLIP-2 را معرفی کرده‌اند که از مجموعه‌های گسترده‌ای از جفت‌های تصویر-متن برای بهبود همسانی چند مدالی استفاده کرده‌اند. این پیشرفت‌ها بر تقویت وضوح تصویر، بهبود کیفیت توکن و رفع مشکلات محاسباتی مرتبط با پردازش تصاویر با وضوح بالا تمرکز داشته‌اند. با این حال، آن‌ها با مسائل مربوط به تاخیر و نیاز به منابع آموزشی گسترده روبرو شده‌اند.

نوآوری‌های ارائه شده توسط محققین دانشگاه چینی هنگ کنگ و SmartMore به وجود یک چارچوب جدید به نام Mini-Gemini منجر شده است که با ارتقاء پردازش ورودی چند مدالی، مرزهای مدل‌های زبان دیداری را گسترش می‌دهد. آنچه Mini-Gemini را از مدل‌های موجود متمایز می‌کند، اجرای یک سیستم دوگانه-انکودر و یک تکنیک استخراج اطلاعات پچ منحصر به فرد به همراه مجموعه داده با کیفیت بالا ویژه‌ای است. این پیشرفت‌ها باعث می‌شوند که Mini-Gemini به پردازش بهینه تصاویر با وضوح بالا و تولید محتوای بصری و متنی حاوی محتوای کانتکست باز شود.

منهاج کار Mini-Gemini شامل یک سیستم دوگانه-انکودر است که شامل یک شبکه عصبی کانولوشن برای پردازش دقیق تصویر و یک تکنیک استخراج اطلاعات پچ برای برداشت زیبایی‌های بصری دقیق است. این چارچوب بر روی یک مجموعه داده ترکیبی آموزش داده می‌شود که شامل جفت‌های تصویر-متن با کیفیت بالا و دستورالعمل‌های محوری است که جهت افزایش عملکرد مدل و گسترش دامنه کاربرد آن مورد استفاده قرار می‌گیرد. Mini-Gemini با مدل‌های زبان بزرگ (LLMs) مختلف سازگار است که پیشامدهای هر یک به هر یک را ممکن می‌کند. این راه‌اندازی امکان می‌دهد Mini-Gemini نتایج برتری را در بنچمارک‌های صفر-شات به دست آورد و وظایف چند مدالی پیشرفته را پشتیبانی کند.

در ارزیابی کارآیی Mini-Gemini، این چارچوب در چند بنچمارک صفر-شات عملکرد برجسته‌ای از خود نشان داد. به ویژه، در بنچمارک‌های MM-Vet، MMBench و VQAT مدل Gemini Pro را پیش‌گرفت و به ترتیب امتیازهای 79.6 و 75.6 را کسب کرد. زمانی که با Hermes-2-Yi-34B پیکربندی شد، Mini-Gemini امتیاز 70.1 را در بنچمارک VQAT به دست آورد و مدل موجود LLaVA-1.5 را در تمام معیارهای ارزیابی فراتر زد. این نتایج قابلیت‌های پیشرفته‌ی پردازش چند مدالی Mini-Gemini را تایید کرده و به فعالیت و دقت آن در مقابله با وظایف پیچیده بصری و متنی تاکید می‌کند.

هرچند Mini-Gemini یک گام مهم در قابلیت‌های هوش مصنوعی چند مدالی را نشان داده است، اما محققین اعلام می‌کنند که هنوز در فهم و قابلیت‌های استنتاجی بصری آن جای کار دارد. آن‌ها مدعی هستند که کارهای آینده برای بررسی روش‌های پیشرفته در فهم، استنتاج و تولید بصری انجام خواهد شد.

به طور خلاصه، Mini-Gemini یک دوره جدید را به مدل‌های زبان دیداری از طریق سیستم دوگانه-انکودر، تکنیک استخراج اطلاعات پچ و مجموعه داده با کیفیت بالا معرفی می‌کند. با عملکرد استثنایی در بنچمارک‌های متعدد، Mini-Gemini از مدل‌های استوار پیشی گرفته و راه را برای پیشرفت‌های در هوش مصنوعی چند مدالی هموار می‌کند. در حالی‌که محققین در کار خود ادامه می‌دهند، آن‌ها سعی دارند تا فهم بصری و قابلیت‌های استنتاجی Mini-Gemini را ارتقا دهند و مرزهای فناوری هوش مصنوعی را گام به گام گسترش دهند.

منبع: Marktechpost

سوالات متداول

The source of the article is from the blog crasel.tk

Privacy policy
Contact