تقدم Griffon v2: تعزيز الإدراك متعدد الوسائط من خلال النماذج عالية الدقة

نماذج اللغة الكبيرة الرؤية اللغوية (LVLMs) قد احرزت تقدما كبيرا في المهام التي تتضمن فهم النصوص والصور. ومع ذلك، يتراجع أداؤها في السيناريوهات المعقدة مقارنة بالمتخصصين الذين يعملون في مجال مهمة محددة، وذلك بالأساس بسبب تقييدات دقة الصورة. هذه التقييدات تعترض قدرة LVLMs على الرجوع بفعالية إلى الكائنات باستخدام إشارات نصية وبصرية، خصوصًا في مجالات مثل وكلاء واجهة المستخدم الرسومية وأنشطة العد.

لحل هذا التحدي، قدّم فريق من الباحثين نموذجًا عالي الدقة موحدًا هو Griffon v2، مصمم لتمكين الرجوع المرن إلى الكائنات من خلال الدلائل النصية والبصرية. وللتغلب على مشكلة دقة الصورة المحدودة، قدّم الفريق مشروع جهاز عرض بسيط وخفيف الوزن. يهدف هذا الجهاز إلى تجاوز قيود الرموز الداخلية للنماذج اللغوية الكبيرة عن طريق زيادة دقة الصورة بفعالية.

تطبيق هذا النهج يعزز بشكل كبير الإدراك متعدد الوسائط من خلال الاحتفاظ بالتفاصيل الدقيقة والسياقات الكاملة، خصوصا للكائنات الصغيرة التي قد تغفل عنها النماذج ذات الدقة المنخفضة. وقد قام الباحثون بالتوسع في هذا الأساس عن طريق دمج المجهر البصري في Griffon v2 وتم تعزيزه بإمكانيات إشارة الكود اللغوي البصري. تسمح هذه الميزة للمستخدمين بالتفاعل مع النموذج باستخدام وضعيات الإدخال المختلفة، بما في ذلك الإحداثيات والنصوص الحرة والصور المستهدفة المرنة.

قد أظهر Griffon v2 فعاليته في مختلف المهام، بما في ذلك إنشاء التعبيرات المرجعية (REG)، وأساس العبارات، وفهم التعبيرات المرجعية (REC)، بناءً على البيانات التجريبية. فقد تفوق النموذج على النماذج الاحترافية في كشف الكائنات وعد الأشياء.

يمكن تلخيص الإسهامات الأساسية لفريق البحث على النحو التالي:

1. نموذج الإدراك متعدد الوسائط عالي الدقة: بإزالة الحاجة لتقسيم الصور، يقدم Griffon v2 نهجًا فريدًا للإدراك متعدد الوسائط الذي يحسن الفهم المحلي. تزيد قدرته على التعامل مع الدقات تصل إلى 1K سعتها في التقاط التفاصيل الصغيرة.

2. هيكل الرجوع اللغة البصري: لتوسيع فائدة النموذج وتسهيل التواصل المرن مع المستخدمين، تم تقديم هيكل الرجوع المشترك بين اللغة والإدخالات البصرية. تمكن هذه الميزة من تفاعل أكثر مرونة وطبيعية بين المستخدمين والنموذج.

تم إجراء تجارب واسعة لتحقق فعالية Griffon v2 في مختلف المهام المتعلقة بالتحديدات، بما في ذلك تأسيس التعبير المرجعي، وأساس العبارات، وفهم التعبيرات المرجعية. أظهر النموذج أداءً ذي المستوى العالي، متفوقًا على النماذج الاحترافية على كل من العد الكائنات إحصائيًا ونوعيًا. يثبت هذا تفوقه في الإدراك والفهم.

لمزيد من التفاصيل، يمكنك الرجوع إلى الورقة ومستودع GitHub للمشروع.

أسئلة مكررة (FAQ)

The source of the article is from the blog zaman.co.at

Privacy policy
Contact