Mixtral 8x7B: מודל שפה חזק עבור יישומים מגוונים

חוקרים מ-Mistral AI פיתחו את Mixtral 8x7B, מודל שפה המשתמש במודל Sparse Mixture of Experts (SMoE) עם משקלים פתוחים. מודל החפשן הזה רשומ תחת רישיון Apache 2.0 ועובד כרשת צפיפה של מערך של מומחים.

Mixtral 8x7B מציע ביצועים יוצאי דופן בזכות אדריכלותו הייחודית. חלק הפידפורוורד של Mixtral מורכב משמונה קבוצות פרמטרים שונות, המאפשרות בחירה דינמית על ידי הרשת השייכת. התהליך הזה מאפשר לכל טוקן להיעבד על ידי שני קבוצות פרמטרים, הכונים מומחים, שתוצאותיהם משולבות באופן נוסף. אסטרטגיה זו מרחיבה משמעותית את מרחב הפרמטרים של המודל תוך שמירה על שליטה על עלויות והמתנה.

אחת מתכונות היפהפיות של Mixtral היא שימושו היעיל בפרמטרים, המוביל לזמני היישום מהירים יותר בגדלי צמתים קטנים וגדולים. בבדיקות במדרגה, Mixtral הוכיח את ביצועיו הדומים או המועדפים ביותר על פני מודלים שפה מובילים נוספים כמו Llama 2 70B ו-GPT-3.5.

Mixtral מחזיק ביתרון על Llama 2 70B באמצעות מגוון מטלות, כולל הבנה מדוברת רבלשונית, יצירת קוד ומתמטיקה. המודל מסוגל לחלץ מידע בצורה יעילה מחלון ההקשר שלו באורך של 32k טוקנים, בלתי תלוי באורך ובמיקום של הנתונים בסדרה.

למען ערכאה הוגשו על מנת להשוות לעומק בין Mixtral לבין המודלים של Llama מבחן השוואתי מקיף במגוון רחב של בדיקות. ההערכות כיסתו מתמטיקה, קוד, הבנת קריאה, חשיבה רגישה, ידיעת עולם וממצאים ממוחשבים פופולריים.

בנוסף ל-Mixtral 8x7B, גם החוקרים הציגו את Mixtral 8x7B – מודל שיחה אופטימלי עבור הוראות. באמצעות איתור מועדף ישיר והתאמת תרגול מאובטח, Mixtral – Instruct הוכיח ביצועים טובים יותר ממודלי צ'אט אחרים כמו GPT-3.5 Turbo ו-Llama 2 70B.

למען תמיכה נרחבת ויישומים מגוונים, Mixtral 8x7B ו-Mixtral 8x7B – Instruct רכיש את רישיון Apache 2.0, המתיר שימוש מסחרי ואקדמי.

פיתוחו של Mixtral 8x7B מדגיש את ביצועיו היוצאים דופן והגמישות שלו בתחומים שונים. מבחן בעיות מתמטיות וקוד, הבנת קריאה, חשיבה וידע כללי, Mixtral מדגים יכולות מרשימות כדי להיות מודל שפה עוצמתי.