استراتيجيات جديدة لتنفيذ فعال لنماذج اللغة الكبيرة على أجهزة المستهلكين

في السنوات الأخيرة، أدى اعتماد نماذج اللغة الكبيرة (LLMs) على نطاق واسع إلى ظهور حاجة لطرق فعالة لتشغيل تلك النماذج على أجهزة المستهلكين. تتضمن أحد الطرق الواعدة استخدام الهندسة المعمارية الخليطية المتناثرة للخبراء (MoE)، والتي تتيح توليد الرموز بشكل أسرع مقارنة بالخيارات الأكثر كثافة. ومع ذلك، يكمن التحدي في زيادة حجم النموذج بسبب وجود عدة “خبراء”، مما يجعل من الصعب تنفيذ هذه النماذج بدون استخدام بطاقات رسومات GPU متطورة.

لمعالجة هذا التحدي، يقترح بحثٌ حديث استراتيجية جديدة تستغل الخصائص الجوهرية لنماذج MoE LLMs. يتطرق المؤلفون إلى مشكلة تشغيل نماذج اللغة الكبيرة MoE على أجهزة المستهلكين ويستكشفون طريقتين رئيسيتين للتحسين: ضغط معايير النموذج وتحميلها على وسيط تخزين أقل تكلفة مثل الذاكرة العشوائية أو وحدة تخزين الحالة الصلبة SSD. ومن الجدير بال mær أن هذه التحسينات تستهدف بشكل أساسي عملية الاستدلال بدلاً من عملية التدريب.

أحد الاستراتيجيات الرئيسية المقدمة في البحث هو تفريغ المعايير، والذي يتضمن نقل معايير النموذج إلى ذاكرة أرخص وتحميلها في الوقت المناسب عند الحاجة للحسابات. هذا النهج فعال بشكل خاص لنماذج التعلم العميق ذات تسلسل طبقات ثابت، مما يتيح تسليم معايير الطبقة التالية مسبقًا في الخلفية.

يقدم البحث أيضًا مفهوم القرب الاختصاصي والتخزين المؤقت الأقل استخدامًا (LRU Caching)، مستفيدين من النمط الملاحظ في نماذج MoE حيث يتم تعيين خبراء فردية لمهام فرعية متميزة. من خلال الاحتفاظ بالخبراء النشطين في ذاكرة وحدة معالجة الرسومات GPU كـ “ذاكرة مؤقتة” للرموز المستقبلية، يلاحظ المؤلفون تسريعًا كبيرًا في عملية الاستدلال لنماذج MoE الحديثة.

ولمعالجة تحدي زمن تحميل الخبراء، يقترح المؤلفون تحميل الخبراء الظاهري. يتضمن هذا النهج تخمين الخبراء المرجحين التاليين بناءً على وظيفة الأبواب لحالات الطبقة الخفية السابقة، مما يسرع عملية الاستدلال للطبقة التالية.

تتضمن البحث أيضًا استراتيجية أخرى تستكشفها، وهي ضغط MoE، حيث يستغرق التحميل الأقل وقتًا على وحدة المعالجة الرسومات. يستخدم المؤلفون تقنية الضغط الرباعي الحدي (HQQ) لقدرتها على الضغط دون الحاجة لبيانات، محققين تجاذب أفضل بين جودة النماذج وحجمها عند تقليل معايير الخبراء إلى عرض البتات الأقل.

بصفة عامة، قدم التقييم للاستراتيجيات المقترحة باستخدام نماذج MoE شائعة يظهر زيادة كبيرة في سرعة التوليد على أجهزة المستهلكين. تجعل هذه العمليات المحسنة النماذج الكبيرة لـ MoE أكثر إمكانية للبحث والتطوير، مما يفتح آفاقًا جديدة لتطبيقاتها العملية.

The source of the article is from the blog dk1250.com