تقدم ميني-جيميني: تطوير نماذج لغة الرؤية من خلال معالجة الإدخال متعدد الوسائط

في عالم الذكاء الاصطناعي، قد ظهرت نماذج لغة الرؤية (VLMs) كتكامل مبتكر بين رؤية الحاسوب (CV) ومعالجة اللغة الطبيعية (NLP). يهدف تجمع هذين التخصصين إلى تكرار الفهم الشبيه بالإنسان من خلال تفسير وإنتاج محتوى يجمع بين الصور والكلمات. هذا التوحيد يطرح تحديًا معقدًا أسر الباحثين في جميع أنحاء العالم.

لقد أدت التطورات الأخيرة في هذا المجال إلى ظهور نماذج مثل LLaVA وBLIP-2، التي تستفيد من مجموعات واسعة من أزواج الصور والنصوص لضبط محاور التقاط عبر الوسائط. ركزت هذه التطورات على تحسين دقة الصورة، وتحسين جودة الرمز، ومعالجة الصعوبات الحوسبية المرتبطة بتجهيز الصور عالية الدقة. ومع ذلك، واجهت مشاكل تتعلق بالكفاءة والحاجة إلى موارد تدريب واسعة النطاق.

أدى الابتكارات التي قدمها الباحثون من جامعة هونغ كونغ الصينية وشركة SmartMore إلى ظهور إطار عمل جديد يُدعى ميني-جيميني، الذي يدفع حدود نماذج VLMs من خلال تحسين معالجة الإدخال متعدد الوسائط. ما يميز ميني-جيميني عن النماذج الحالية هو تنفيذه لنظام ترميز مزدوج وتقنية تعدين معلومات الباتش بشكل فريد، جنبًا إلى جنب مع مجموعة بيانات عالية الجودة مخصصة. تلك التطورات تمنح ميني-جيميني القدرة على معالجة الصور عالية الدقة بفعالية وتوليد محتوى بصري ونصي غني بالسياق.

تتضمن منهجية ميني-جيميني نظام ترميز مزدوج، يجمع بين شبكة عصبية تابعة للتحقيق لمعالجة الصور المنقّحة وتقنية تعدين معلومات الباتش لاستخراج مؤشرات بصرية مفصلة. يتم تدريب الإطار على مجموعة بيانات مركبة تدمج أزواج الصور والنصوص عالية الجودة وتوجيهات تعتمد على المهام لتعزيز أداء النموذج وتوسيع نطاق تطبيقه. تتوافق ميني-جيميني مع مجموعة متنوعة من النماذج اللغوية الكبيرة، ممتدة من 2B إلى 34B من المعلمات، مما يتيح الاستنتاج فعال من أي نوع إلى أي نوع. تمكن هذه الإعدادات ميني-جيميني من تحقيق نتائج متفوقة في الاختبارات الصفرية ودعم المهام المتعددة المتقدمة.

وفي تقييم فعالية ميني-جيميني، قد واكب الإطار أداءً ممتازًا في عدة اختبارات صفرية. ولا سيما، تفوق على نموذج Gemini Pro في اختبارات MM-Vet وMMBench، محققًا نتائج تبلغ 79.6 و75.6 على التوالي. عند تكوينه مع Hermes-2-Yi-34B، حقق ميني-جيميني درجة احترام كبيرة تبلغ 70.1 في اختبار VQAT، متفوقًا على نموذج LLaVA-1.5 الحالي عبر جميع المقاييس المقيمة. تثبت هذه النتائج قدرات معالجة ميني-جيميني المتعددة المتقدمة وتسليط الضوء على كفاءته ودقته في التعامل مع المهام البصرية والنصية المعقدة.

بينما يمثل ميني-جيميني خطوة كبيرة إلى الأمام في قدرات الذكاء الاصطناعي متعدد الوسائط، يعترف الباحثون بوجود مساحة للتحسين في قدرات فهمها البصري والاستدلال. يؤكدون أن الأعمال المستقبلية ستكشف عن أساليب متقدمة لفهم الصور والاستدلال والتوليد.

في ختام المطاف، يقدم ميني-جيميني عصرًا جديدًا في نماذج VLMs من خلال نظام ترميز مزدوج وتقنية تعدين معلومات الباتش ومجموعة بيانات عالية الجودة. بأدائه الاستثنائي في العديد من الاختبارات، يتجاوز ميني-جيميني النماذج المعتمدة، ممهدًا الطريق للتطورات في الذكاء الاصطناعي متعدد الوسائط. وبينما يستمرون الباحثون في عملهم، يسعون إلى تحسين فهم ميني-جيميني البصري والاستدلال، مما يدفع بحدود تكنولوجيا الذكاء الاصطناعي.

المصدر: Marktechpost

الأسئلة الشائعة

The source of the article is from the blog mgz.com.tw

Privacy policy
Contact