نهج جديد لتدريب نماذج اللغة الكبيرة يظهر وعودًا في الاستكشاف الفعّال

تمكنت الذكاء الاصطناعي من تحقيق تقدم كبير في السنوات الأخيرة، بفضل تطوير نماذج اللغة الكبيرة (LLMs) وتقنيات مثل التعلم المعزز من ردود الفعل البشرية (RLHF). ومع ذلك، لا يزال تحسين عملية التعلم لنماذج اللغة الكبيرة من خلال ردود الفعل البشرية يشكل تحديًا.

تقليديًا، كان تدريب نماذج اللغة الكبيرة ينطوي على الاستكشاف السلبي، حيث تنشئ النماذج ردودًا استنادًا إلى بنود محددة مسبقًا دون أن تسعى نشطًا لتحسين أدائها استنادًا إلى ردود الفعل. كان هذا النهج يتطلب العديد من التفاعلات وكان غير كفء بالنسبة لتحسين النموذج بشكل سريع. ولذلك، تم استخدام طرق استكشاف مختلفة، مثل استكشاف بولتزمان واستكشاف المعلومات القصوى (Infomax)، ولكنها غالبًا ما تتطلب عددًا كبيرًا من التفاعلات البشرية لتحقيق نتائج ملحوظة.

اقترح باحثون من جوجل ديب مايند وجامعة ستانفورد نهجًا جديدًا للاستكشاف الفعّال، يتضمن استخدام طريقة مزدوجة لتومبسون سمبلينغ (TS) وشبكات عصبية معرفية (ENN) لتوليد الاستفسارات. تسمح هذه الطريقة للنموذج بسعيه نشطًا للحصول على ردود فعل مفيدة، مما يقلل بشكل كبير من عدد الاستفسارات المطلوبة لتحقيق مستويات أداء عالية.

في تجاربهم، أنشأ الوكلاء ردودًا على 32 بندًا، ثم قام محاكي التفضيل بتقييمها. تم استخدام ردود الفعل من هذه التقييمات لتحسين نماذج المكافأة في نهاية كل دورة. من خلال اختيار الأزواج الأكثر إيضاحًا من مجموعة من المرشحين باستخدام ENN، استكشف النموذج المجال الاستجابة بشكل أفضل.

أظهرت النتائج أن تومبسون سمبلينغ المزدوجة (TS) تفوقت على طرق الاستكشاف الأخرى مثل استكشاف بولتزمان والاستكشاف المعلومات القصوى، خاصةً عند استخدام تقديرات الغموض من نموذج المكافأة ENN. هذا النهج سرّع عملية التعلم وأظهر إمكانية الاستكشاف الفعّال في تقليل حجم ردود الفعل البشرية المطلوبة.

تفتح هذه البحوث إمكانيات جديدة لتحسين النماذج بسرعة وفعّالية من خلال الاستفادة من خوارزميات استكشاف متقدمة وتقديرات الغموض. إنها تسلط الضوء على أهمية تحسين عملية التعلم لتطور الذكاء الاصطناعي بشكل عام. باستخدام هذه التطورات، يمكننا التطلع إلى طرق تدريب أكثر كفاءة لنماذج اللغة الكبيرة وتطبيقات ذكاء اصطناعي مثيرة في مجالات مختلفة.

قسم الأسئلة الشائعة:

س: ما هو التحدي الرئيسي في تحسين عملية تعلم النماذج اللغة الكبيرة من خلال ردود الفعل البشرية؟
ج: التحدى الرئيسي هو إيجاد وسيلة لتحسين النماذج اللغة الكبيرة بشكل كفّء استنادًا إلى ردود الفعل، حيث أن الطرق التقليدية كانت غير فعّالة واحتاجت إلى عدد كبير من التفاعلات البشرية.

س: ما هو الاستكشاف الفعّال في سياق النماذج اللغة الكبيرة؟
ج: الاستكشاف الفعال هو نهج يتبعه النموذج اللغة الكبيرة حيث يسعى نشطًا للحصول على ردود فعل مفيدة لتحسين أدائه، بدلاً من الاعتماد على الاستكشاف السلبي حيث ينشئ ردود استنادًا إلى بنود محددة مسبقًا.

س: ما هو تومبسون سمبلينغ المزدوج (TS) وشبكات عصبية معرفية (ENN)؟
ج: تومبسون سمبلينغ المزدوج (TS) وشبكات عصبية معرفية (ENN) هما تقنيتان تستخدمان في الاستكشاف الفعال المقترح. تومبسون سمبلينغ المزدوج هي طريقة لتحقيق التوازن بين الاستكشاف والاستثمار، بينما تستخدم الشبكات العصبية المعرفية لتوليد الاستفسارات للاستكشاف الفعّال للمجال الاستجابة.

س: كيف قيّم الباحثون أداء النماذج اللغة الكبيرة؟
ج: قام الوكلاء بإنشاء ردود على 32 بنداً، ثم قيّمها محاكي التفضيل. تم استخدام ردود الفعل من هذه التقييمات لتحسين نماذج المكافأة في نهاية كل دورة.

س: ما هي نتائج التجارب؟
ج: أظهرت التجارب أن تومبسون سمبلينغ المزدوج (TS) تفوق على طرق الاستكشاف الأخرى مثل استكشاف بولتزمان واستكشاف المعلومات القصوى. استخدام تقديرات الغموض من نموذج المكافأة ENN سرّع عملية التعلم وخفض كمية ردود الفعل البشرية المطلوبة.

التعاريف:

– نماذج اللغة الكبيرة (LLMs): نماذج متقدمة تستخدم لمعالجة وتوليد نصوص اللغة البشرية.
– التعلم المعزز من ردود الفعل البشرية (RLHF): تقنية تستخدم ردود الفعل البشرية لتحسين أداء النماذج بواسطة التعلم المعزز.
– الاستكشاف بولتزمان (Boltzmann Exploration): طريقة تحقق التوازن بين الاستكشاف والاستغلال عن طريق تعيين احتمالات للإجراءات.
– المعلومات القصوى (Infomax): طريقة تعزز محتوى المعلومات في بيئة الوكيل.

توصي بروابط ذات صلة:

– ديب مايند: DeepMind هي منظمة بحثية في مجال الذكاء الاصطناعي أحرزت مساهمات كبيرة في هذا المجال.
– جامعة ستانفورد: جامعة ستانفورد هي مؤسسة أكاديمية مشهورة معروفة بأبحاثها وابتكاراتها في مجالات مختلفة.

The source of the article is from the blog xn--campiahoy-p6a.es