تحويل تدريب سلامة الذكاء الاصطناعي من خلال الاختبار المنازعة المدفوع بالفضول

بجهد جريء لتقليل مخاطر أنظمة الذكاء الاصطناعي في إنتاج ردود ضارة أو تمييزية أو سامة، لجأ العلماء إلى طريقة غير تقليدية: استخدام الذكاء الاصطناعي نفسه لتحدي النظام. هذه التقنية الجديدة للتدريب تسمى “العنف التحققي المدفوع بالفضول” (CRT)، وتتضمن استخدام الذكاء الاصطناعي لصياغة مجموعة من الطلبات الضارة أو المدمرة التي قد يُطرحها الشخص لروبوت دردشة تعتمد على الذكاء الاصطناعي.

تعزيز تصفية المحتوى الذكي عبر أساليب تدريبية مبتكرة

تلعب هذه الطلبات المصاغة دورًا حيويًا حيث يتم استخدامها لضبط قدرات نظام تصفية المحتوى. وفقًا للنتائج الأخيرة المنشورة في دراسة على arXiv في 29 فبراير، يعتقد الباحثون أن هذا الاكتشاف قد يغير بشكل كبير الطريقة التي يتم بموجبها برمجة الذكاء الاصطناعي لعدم تقديم إجابات سامة لاستفسارات المستخدمين.

في العملية التقليدية المعروفة باسم “العنف التحققي”، عادة ما يقوم المشغلون البشر بصياغة سلسلة من الأسئلة التحققية التي يمكن أن تُحقق ردود ضارة، مثل الاستفسارات عن أفضل الطرق للإيذاء الذاتي. يُعتبر هذا الإجراء القياسي بعد ذلك ضروريًا لتوجيه النظام بشأن المحتوى الذي يجب تقييده عند التفاعل مع مستخدمي الحياة الحقيقية.

العنف التحققي التلقائي يفوق الطرق اليدوية

نفذت الدراسة التعلم الآلي في التحقق الحمري، عبر إعداد الذكاء الاصطناعي لتوليد مجموعة واسعة من المحفزات الضارة المحتملة بشكل أوسع مما يمكن لفرق البشر تصوره يدويًا. أدى هذا النهج إلى توليد مجموعة أوسع وأكثر تنوعًا من الردود السلبية التي تم إنتاجها بواسطة أنظمة الذكاء الاصطناعي أثناء التدريب.

تم برمجة نماذج تعلم الآلة، مثل تلك المستخدمة في CRT، لاستكشاف وتوليد محفزات جديدة عن طريق تحليل عواقب التفاعلات السابقة، مشجعة النظام على تحقيق ردود سامة باستخدام كلمات، أنماط جمل أو معان جديدة.

عندما تم تطبيق نهج CRT على النموذج المفتوح المصدر LLaMA2، أنتج الذكاء الاصطناعي 196 محفزًا أسفر عن محتوى ضار، على الرغم من أن الذكاء الاصطناعي تم ضبطه مسبقًا بواسطة المشغلين البشر لمنع السلوك السام. هذا الأسلوب فاق أيضًا أنظمة التدريب التلقائي المنافسة، مما يشير إلى حدود جديدة في تدريب الذكاء الاصطناعي على السلامة والموثوقية.

الأسئلة الهامة والإجابات:

1. ما هو العنف التحققي المدفوع بالفضول (CRT)؟
العنف التحققي المدفوع بالفضول هو تقنية تقوم عليها الذكاء الاصطناعي، حيث يولد نظام الذكاء الاصطناعي مجموعة واسعة من الاستفسارات المحتملة التي يمكن أن تؤدي إلى ردود غير آمنة لنظام الذكاء الاصطناعي. يتعلم النظام توليد هذه التحديات من خلال فهم عواقب التفاعلات السابقة.

2. كيف يختلف CRT عن أساليب العنف التحقق التقليدية؟>
تعتمد أساليب العنف التحققية التقليدية على المشغلين البشر لتوليد الأسئلة التحققية، بينما يقوم CRT بتلقين هذه العملية بشكل تلقائي باستخدام الذكاء الاصطناعي، الذي يمكنه إنشاء مجموعة أكبر وأكثر تنوعًا من المحفزات.

3. ما هي التحديات الرئيسية المرتبطة بـ CRT؟
تحدي رئيسي هو ضمان عدم تجاوز الذكاء الاصطناعي للأمثلة العدائية وفقدان الأداء العام. ومن المخاوف الأخرى أن يكتشف العنف التحققي التلقائي طرقًا أكثر دقة لإثارة ردود غير آمنة، مما يستوجب تكييفات مستمرة في أنظمة التصفية.

4. هل هناك أي جدل مرتبط بـ CRT؟>
قد ينشأ جدل بالنسبة للصعوبات الأساسية في تحديد المحتوى “غير الآمن”، حيث يمكن أن تكون الأمور الضارة أو السامة معقولة ثقافيًا وتعتمد على السياق. علاوة على ذلك، هناك المسألة الأخلاقية في خلق وتعامل مع نظام يهدف إلى إنشاء محتوى قد يكون مدمرًا.

مزايا وعيوب CRT:

مزايا CRT:
– يمكن لـ CRT إنشاء مجموعة أوسع وأكثر تنوعًا من المحفزات الضارة مقارنة بفرق البشر، مما يعزز قدرة الذكاء الاصطناعي على التعامل مع سيناريوهات متنوعة في الحياة الحقيقية.
– يمكن للتقنية التكيف مع أنماط استخدام اللغة المتطورة وتوقع أشكال جديدة من المحتوى غير الآمن.
– عن طريق التدريب على مجموعة أوسع من المحفزات، يمكن أن تصبح الأنظمة الذكية الاصطناعية أكثر صلابة وأقل احتمالاً في إخراج محتوى ضار.

عيوب CRT:
– ومع توليد الذكاء الاصطناعي لمحفزات أكثر تقدمًا، هناك مخاطر أن يتعلم نظام الذكاء الاصطناعي المختبر هذه الأنماط الضارة.
– يتطلب CRT تنفيذًا حذرًا لمنع الذكاء الاصطناعي من اعتماد سلوكيات غير أخلاقية.
– تحديد التوازن الصحيح بين التحديات العدائية دون المساس بأداء الذكاء الاصطناعي بشكل عام مهمة معقدة.

روابط ذات صلة:
يمكن للقراء زيارة الموقع الرسمي لarXiv، حيث تم نشر الدراسة حول العنف التحققي المدفوع بالفضول: arXiv.
يمكن أن يوفر استكشاف المجال الرئيسي للنموذج مفتوح المصدر المستشهد، LLaMA، رؤى أخرى حول النماذج الذكية الاصطناعية وقدراتها: Hugging Face (بشرط أن يكون LLaMA2 مرتبطًا بالمجتمع Hugging Face).

عليك أن تضع في اعتبارك أنه مع تطور أساليب جديدة مثل الاختبار العدائي المدفوع بالفضول، يتعين إجراء أبحاث ومناقشات مستمرة ضمن مجتمع السلامة الاصطناعية لتحسين وتنقيح هذه التقنيات من أجل تحسين وضمان سلامة أنظمة الذكاء الاصطناعي.

The source of the article is from the blog elperiodicodearanjuez.es