שיטות חדשות בלמידת חיזוי ממערכת מבוססת משוב אנושי

מחקרנים ממעבדה לעיבוד שפה וראייה של אוניברסיטת פודאן, מעבדה לתורת הלמידה והראייה של אוניברסיטת פודאן ו-Hikvision Inc. פיתחו טכניקות חדשניות שמשפרות את למידת החיזוי ממערכת משוב אנושי (RLHF). על ידי הכנסת שיטות חדשות שמתמודדות עם העדפות שגויות ודו-משמעיות בסטי נתונים, מחקרנים אלו פתחו את הדרך לקידוד יעיל יותר של כוונה אנושית.

היבט קריטי של RLHF הוא דגם של שכר, שמשמש כמנגנון ראשון לשילוב העדפות אנושיות בתהליך הלמידה. אולם, דגמים של שכר המבוססים על חלוקת נתונים מסוימת לעיתים קשה להתקדם מעבר לאותה חלוקה, מונעים את היכולת היעילה של RLHF. בכדי להתגבר על המגבלה הזו, המחקרנים הציעו למדוד חוזק העדפה דרך מנגנון הצבעה הכולל מספר דגמים של שכר. הגישה הזו עוזרת לצמצם העדפות שגויות ודו-משמעיות, ומשפרת את כללות הדגמים של שכר.

המחקר הציג גם למידה עקרונית, שמשפרת את יכולת הדגמים של שכר להבחין בתגובות שנבחרו מאלה שנדחו. על ידי המתקנת את הלאומדן של דגם השכר לזיהוי הבדלים הסמויים בדגימות שנמצאות מחוץ לתחום ההתפלגות, המחקרנים יכלו לשפר ולמטב את תהליך RLHF באמצעות למידה מטא.

הניסויים שבוצעו על סטי נתונים כמו SFT, Anthropic-RLHF-HH, Reddit TL;DR, Oasst1 ו-PKU-SafeRLHF תיקמו את היעילות של השיטות המוצעות. הסטי נתונים הללו, הכוללים שיחות, נתוני העדפה אנושית, סיכומים ופרומפטים, תרמו לכללת יציבה בתוך כלל התחום. בנוסף, המחקר הציג כי שיטות ניבוי הרעש היו יכולות לספק ביצועים יציבים בכל שלבי האימות, במיוחד בעת הגיבות לפרומפטים מזיקים.

החקר של RLHF בתחום התרגום הציג תוצאות מבטיחות, המציינות אפשרויות פוטנציאליות למחקר נוסף בתחום התחום הדינמי הזה. תחום מרכזי לחקירה נוספת הוא פיתוח של דגם של שכר מעמיק יותר, שעדיין לא חקר במידה הראויה במודלים של שפה. המחקרנים מדגישים את היישום המעשי של המחקר, בהתמקדות על רעיונות והבנת התאמה, ולא על הצעת שיטות חדשות.

במסקנה, פיתוח שיטות חדשות ב-RLHF פותח אפשרויות להתאמת מודלי שפה לערכים אנושיים. על ידי התמודדות עם אתגרים הקשורים לדגמים של שכר והעדפות שגויות, המתקדמים הללו משפרים את דיוק ויעילות למידה ממערכת המשוב האנושי.

The source of the article is from the blog j6simracing.com.br