طريقة جديدة لتوسيع طول السياق في نماذج اللغة الكبيرة

توصل الباحثون إلى مشكلة في نماذج اللغة الكبيرة (LLMs) وقدرتها على التعامل مع السياقات الطويلة بسبب طول نافذتها المقيد. على الرغم من أن عملية التنقيح يمكن أن توسع نافذة السياق، إلا أنها تأتي بتكلفة كبيرة من حيث الوقت اللازم للتدريب والاستدلال. وهذا يؤثر سلبًا على القدرات الأساسية للـ LLM.

لحل هذه المشكلة، اقترح فريق من الباحثين من أكاديمية بكين للذكاء الاصطناعي ومدرسة جاولينج للذكاء الاصطناعي وجامعة رينمن وسيلة جديدة تسمى “Activation Beacon”. تهدف هذه الطريقة إلى توسيع طول السياق لـ LLMs المدربة مسبقًا دون التأثير على قدراتها الحالية.

تعمل طريقة Activation Beacon عن طريق تكثيف النشاطات الأولية لـ LLM بأدنى فقد للمعلومات. هذا الشكل المكثف يسمح لـ LLM بفهم سياق أوسع في نافذة قصيرة. تستخدم الوسائط المميزة المعروفة باسم بيكونز ثلاثة طرق للانتباه، وتبين أن طريقة التوسيع التدريجي هي الأكثر فعالية. من خلال دمج النشاطات المكثفة والنشاطات الأولية في نوافذ متحركة، يتنبأ Activation Beacon بالرمز التالي بكفاءة، مما يمكن LLM من معالجة المعلومات السياقية الطويلة دون التضحية بقدرتها على معالجة السياقات الأقصر.

أظهرت النتائج التجريبية أن Activation Beacon يفوق الأساليب الموجودة لتوسيع طول السياق في LLMs. يحقق أداءً مماثلًا أو أفضل لأساليب التصحيح الكاملة للانتباه، مع الحفاظ على كفاءة أعلى. تم اختبار Activation Beacon على مهام مختلفة ويعرض فعاليته في تطبيقات عملية متنوعة.

بشكل عام، يوفر Activation Beacon حلاً مكلفًا وفعالًا لتوسيع طول السياق في LLMs. تتيح هذه الطريقة الجديدة تعزيز قدرات نماذج اللغة الكبيرة وتمكينها من التعامل بفعالية مع السياقات الأطول. يمكن أن يؤدي المزيد من البحث والتطوير في هذا المجال إلى تقدمات كبيرة في معالجة وفهم اللغة الطبيعية.

The source of the article is from the blog klikeri.rs