تأثير نماذج لغة البرمجة المُضبَّبة على مهام هندسة البرمجيات

ألقت الأبحاث الحديثة الضوء على القدرات المذهلة لنماذج اللغة الكبيرة (LLMs) التي تم تدريبها على الشفرة في مختلف مهام هندسة البرمجيات. يمكن تصنيف هذه النماذج إلى ثلاثة تصنيفات رئيسية، وهي نماذج LLMs المتخصصة في إكمال الشفرة، ونماذج LLMs متخصصة في مهام محددة، ونماذج LLMs المُضبَّبة والماهرة في اتباع التعليمات البشرية والتفوق في المهام الجديدة دون الحاجة لضبط إضافي.

لاستكشاف إمكانات نماذج LLMs المُضبَّبة وفهمها بشكل أعمق، يقدم فريق من الباحثين في جامعة موناش ومركز أبحاث ServiceNow ASTRAIOS، وهي مجموعة تتألف من 28 نموذج LLMs المُضبَّبة. يتم ضبط هذه النماذج بدقة باستخدام سبع طرق مختلفة استنادًا إلى النماذج الأساسية لـ StarCoder، ويتراوح حجم النماذج المستخدمة بين 1 مليار و 16 مليار. يستخدم عملية الضبط الدقيق مجموعة بيانات CommitPackFT من OctoPack لضمان تحسين شامل لقدرات النماذج في المهام الفرعية.

يستخدم الباحثون الممارسات الموصى بها من تكوينات PEFT لـ Hugging Face ويدمجون بعض الطرق المختارة من الأطر العمل الحديثة. يركز الباحثون بشكل أساسي على تقييم التوسع من خلال تقييم خسارة الانحراف المتوازن خلال ضبط التعليمات، مع مراعاة حجم النموذج ومقياس وقت التدريب.

علاوة على ذلك، يقوم الباحثون بتقييم أداء نماذج LLMs المُضبَّبة المُوجَّهة بالتعليمات في خمسة مهام تمثل الشفرة بشكل عام: كشف الانسخة، كشف العيوب، تخليق الكود، إصلاح الشفرة، وشرح الشفرة. كما يحللون أيضًا قوة النماذج وأمان الشفرة من خلال تقييم قدرتها على إنشاء شفرة استنادًا إلى أمثلة متشوشة وتحديد الثغرات المحتملة في الشفرة المُولَّدة.

ومن المثير للاهتمام أن الدراسة تكشف عن أن نماذج PEFT Code LLMs الكبيرة تتفوق في مهام توليد الشفرة، ولكنها لا تظهر مزايا مماثلة في مهام فهم الشفرة مثل كشف الانسخة وكشف العيوب. زيادة حجم النموذج تحسن أداء التوليد لكنها تثير مخاوف بشأن الضعف في مواجهة الأمثلة المعادية والانحياز نحو الشفرة غير الآمنة.

يتم استكشاف العلاقة بين المعلمات المحدثة وخسارة الانحراف المتوازن، وأداء المهمة بشكل معمق. يجد الباحثون أنه يمكن استخدام الخسارة النهائية لنماذج PEFT الأصغر للتنبؤ بخسارة النماذج الأكبر، وأن هناك علاقة قوية بين الخسارة الأخيرة والأداء العام في المهام الفرعية.

بالإضافة إلى ذلك، يسلط البحث الضوء على تشابه أداء الخسارة النسبية عبر أحجام النماذج المختلفة عند مقارنة طرق الضبط المختلفة. وهذا يشير إلى أن التحسينات التي تحققها كل طريقة ضبط قابلة للمقارنة بغض النظر عن مقياس النموذج. وبالتالي، يتمكن الخسارة الملاحظة في النماذج الأصغر التي تم ضبطها بواسطة طرق مختلفة من تقديم مؤشر قيم في توقع أداء النماذج الأكبر.

تقدم مجموعة ASTRAIOS، جنبًا إلى جنب مع الورقة البحثية ومستودع GitHub، رؤى قيمة حول إمكانات نماذج لغة البرمجة المُضبَّبة لتطوير مهام هندسة البرمجيات.

The source of the article is from the blog jomfruland.net