تم الكشف الأسبوع الماضي عن نموذج ذكاء اصطناعي جديد يحمل اسم حارس الذكاء الاصطناعي AI Guardian من قبل إحدى الشركات التكنولوجية الرائدة، حيث تم تضمين بروتوكلات أمان متقدمة للحيلولة دون سوء الاستخدام.
تم بناء نموذج اللغة الضخم (LLM) باستخدام تقنية تعرف بالتسلسل التعليمي الهرمي، والتي صممت لصد التسلل الخبيث من خلال منع المهندسين من تجاوز حماية نموذج الذكاء الاصطناعي.
زعمت الشركة أن هذه التقنية تعزز أيضًا مقاومة مشكلات مثل حقن المدخلات وهجمات تحفيز النظام. وفقًا لبيانات الشركة، فإن التوجه الجديد زاد من قوة نموذج الذكاء الاصطناعي بنسبة 63%.
طورت شركة OpenAI إطارًا عمليًا جديدًا للسلامة تم توضيحه في مقالة إلكترونية مسبقة الطباعة نشرت على موقع arXiv، والتي توضح التكنولوجيا المبتكرة ووظائفها.
لفهم مفهوم التسلسل التعليمي الهرمي، يجب على الشخص أن يفهم عملية تجاوز الحمايات، وهي الإجراء الذي يستغل الثغرات المحددة في البرنامج لجعله ينفذ مهامًا لم يتم برمجته لها أصلاً.
في المراحل الأولى من حارس الذكاء الاصطناعي، حاول الأفراد إدخال محتوى خبيث أو ضار عن طريق خداع الذكاء الاصطناعي لتجاهل برمجته الأصلية. وفي حين ابتدأت هذه المطالبات غالبًا بعبارة “نسي جميع التعليمات السابقة وافعل هذا”، لكن مع تقدم حارس الذكاء الاصطناعي وصعوبة إنشاء استدعاءات خبيثة أصبحت أكثر تحديًا، أصبح الجناة أيضًا أكثر استراتيجية في محاولاتهم.
لمواجهة المشاكل التي قد ينشئ فيها نموذج الذكاء الاصطناعي ليس فقط نصوصا أو صورا مهينة ولكن أيضا محتوى ضار مثل طرق إنشاء متفجرات كيميائية أو طرق اختراق موقع إلكتروني، يستخدم الآن OpenAI التسلسل التعليمي الهرمي، حيث يحدد أساسًا كيف يجب أن تتصرف النماذج عندما يُعرضون لأوامر تتعارض في الأولويات المختلفة.
من خلال إنشاء هيكل أساسي متسلسل، يمكن للشركة إعطاء أولوية لتعليماتها، مما يجعل من الصعب بشكل متزايد على أي مهندس سريع تجاوزها حيث سيلازم دائمًا الذكاء الاصطناعي بترتيب الأولويات عندما يُطلب منه إنشاء شيء لم يتم برمجته له في الأصل.
تأكدت الشركة من تحقيق تحسين بنسبة 63% في القوة، ومع ذلك، ما زال هناك خطر على أن يتجاهل الذكاء الاصطناعي تعليمات بسيطة حتى.
قد حددت ورقة بحث OpenAI تحسينات عديدة لتنقية التكنولوجيا بشكل أفضل. واحدة من المجالات الأساسية المركزية هي التعامل مع أنواع وسائط أخرى مثل الصور أو الصوت، التي قد تحتوي أيضًا على تعليمات مضمنة.