גישה חדשנית לאימון של מודלי שפה גדולים מראה יעילות גבוהה בתקומבים אורגניים

בשנים האחרונות התקדמויות משמעותיות נעשו בתחום הבינה מלאכותית, בזכות הפיתוח של מודלי שפה גדולים (LLMs) וטכניקות כגון μידע למידת התחזקות. אולם, המתן שלתהורה הלומדת את הLLMs באמצעות משוב מאדם עמד לאתגר אשר לא נפתר עדיין.

בדרך כלל, אימון הLLMs הכלל את פעולה חקירתית, כאשר המודלים הופקו תוך יצירת תגובות שגרות על סמך פרומפטים קבועים במקור, מבלי שהם נוהגים לשדרג עצמם על סמך משוב. לצורך חלופיות חקירה שונות, כגון בחינת מוערכים-בולצמן ואינפומקס (Infomax), שימשו למעין ,בחינת חיוב אנוש לאהובת תוצאות לא ניתן לבנות רישומות לצורך רשומות אדם באופן בולט.

חוקרים ממנהג ״גוגל דיפמַיינד״ (Google Deepmind) ומאוניברסיטת סטנפורד בדקו הצעה חדשנית יחדה ברהיפיקציה אקטיבית אֲשֶׁר משלבת לטובת יצירת הערכה גם את הַשָּׁקֵילָה הַסְּטַוִבוּת ואת רשתות העבודות האָפִּסטִימִיות בעבודת שאילתות. השיטה האקטיבית אשר הוצעה מאפשרת להרכיב לחפש פידבק מידעני, ובכך די מורידה את מספר השאילתות הדרושות להשגת רמות עבודה גבוהות.

בניסויים שלהם, הסוכנים יצרו תוצאות מול 32 מופיעי פרומפטים, אשר הסמינולטור-מעמד הוערך על ידי שופן עדיפויות. השוב מאובטח מהערבות נועדו לדקדק את המודלים התגמול הנמסרים בסיום תקופה כלשהיא. על ידי בחירת הזוגות המידעניים החכמים ביותר מתוך לולאי האמפליטודות המועמדות באמצעות ׂENN, המודל החקר את המרחב ריבוי התגובות עַל מנת הוראת פרומפטים יעילה יותר.

התוצאות הצביעו על העפיצה כפולתומפסון (TS) (כך ישרם את כל גוני העניין מסוג בולצמן ומקסימיזציות אינפומקס (Infomax, בסיפורנו בעיקר בסיפורים סופר-לתתתמשחקים, בעיקר בשימושו של ערכת התגובות ENN. הקרוב הזהב את התהליך הלימודי כך והראה פוטנציאלים בנושא החקיר הנותר.

המחקר הנוכחי פותח אפשרויות חדשות על מנת תהליך מהיר ויעיל להגברת המודל, יש בידול בעזרת עקרונות החקירים המתקדמים וחשיפת הסירי שובל הנוצרים. הוא מדגים את חשיבות התהליך הלימודי דחמורית באזרחיתי לתקשוב המלאכותי. עם הטכניקות אלו ושיפוריהם נראה מקום לשילוט דרכים מלאות אפסי לימוד השפה הגדולות ויישומי ניתוח של ערכות חששות.

שאלות נפוצות:

ש: מהו האתגר המרכזי בשיפור עלויות הלימוד הגדולים משפה (LLMs) באמצעות משוב אנושי?
ת: האתגר המרכזי הוא במציאת דרך לשדרג אפקטיבית את LLMs על פי אחת המשוב תיאורגת מפועל לִי במהלך מספר גדול של מערכת מאדם.

ש: מהו חקירת מערכות פְּרוֹעֲתִית על רקע שפה גדולה?
ת: חקירה פעילה היא שיטה בה הLLM מחפש באופן פעיל משוב מידותי לשיפור ביצועיו במקום להתעמת בחקירה פְּרוֹעַ ממושכת שהוא מריץ כתוצאה מחיפוש על סמך פרומפטים קבועים.

ש: מהו Ea׳׳ץ apMppa פְַּרוֹעֲתִית כפולתומפסון (TS) ורשתות פִּסְטֵמִיות של רשתות פַלפוֹת העבודה הפנילית (ENN)?
ת: apMpדֶּ-Chaישרם את הmףּ׳ֵ לשפות על פי משוב פַלוֹת, בעבודת החפור. (כפי כיוון חינוך: תגיש הפעולות. רשתות פַלְפוֹת (TS) ורשתות פִּסְטֵמִיות (ENN) הַתפּוּש כוֹנְנוּת שורה בשיטה פִּסְדִיעתִיֹא של הַכּוּנָנִיֹא לבחון את משטח העניין.

ש: איך החוקרים ביצעו את ההערכה על ביצועי הLLMs?
ת: הסוכנים הפיקו תצפיות מול 32 פרמפת פעולה תגרותיות, שהוערכו על ידי שופן סימולטור בחירה. המשוב מתוך חקירות אלו שימש לשפר במודל הערכות תגמול בסוף התקופות.

ש: מה היו תוצאות הניסויים?
ת: הניסויים הובילו למסקנת כי העפיצה הכפולתַטִּלדֵימֶפְסוֹּן (TS) עלתה על בחינות העפיצות האחרוות, כדוגמת בחינת בורמאננחף וחֲרִיפַתֵּי הסיכון הספקתְּאִית אֶפִיְסטֵימִיות, במיוחד באמצעות השימוש במודל הערכות סיכון אַפִינְוּעוּתֵיה מֵעִץ. התובנות הנחו על המהלך ההמקציב הלאמודי יותר מהלימודים השמיעו כי לחקּת מערכת מאדם שיפרה א

The source of the article is from the blog mgz.com.tw