חדשות והיבטים חדשים בתחום המערכות המולטימודליות ללמידת מכונה

שדה העיבוד הטבעי של שפות (NLP) והדור של שפה טבעית (NLG) התקדם בצורה משמעותית עם הכנסת מודלים גדולים לשפה (LLMs) ומודלים בסיס במודלים מולטימודליים. מודלים אלו, כגון GPT4V, Claude ו-Gemini, משלבים מקודדים ויזואליים עם LLMs, מובילים לביצועים מדהימים בטיפול בטקסט בלבד או בקלטי תמונה וטקסט משולבים.

מבטיח קריטי עולה – האם היכולות של מודלים אלו משתנות בהתאם לסוג הקלט שהם מקבלים?

לטורק בשאלה זו, קבוצת חוקרים הציעה את IsoBench, מערך נתונים בניסוי שאוסף מאתגרים מארבע תחומים חשובים: משחקים, מדע, מתמטיקה ואלגוריתמים. כל בעיה בIsoBench מכילה ייצוגים איזומורפיים מרובים, כולל תבניות טקסטואליות, מתמטיות וגרפיות. השוניות האלו מאפשרות ניתוח מעמיק של פערים בביצועים תוצאת דופי צפי מסוגים שונים של ייצוג.

IsoBench משמש ככלי שימושי לאבחון פליטות בביצועי המודל כתוצאה מייצוג הקלט, ומספק משוב מפורט. דפוס רצוף שנראה במודלים בסיס שונים הוא העדפתם ליצוגים טקסטואליים בעת טיפול באותו נושא. לדוגמה, לפי הערכות של IsoBench, Claude-3 Opus מדגים ירידה של 28.7 נקודות בביצועים כאשר מוצגים תמונות במקום טקסט. באותה מידה, GPT-4 Turbo ו-Gemini Pro מראים ירידה בביצועים של 18.7 ו-14.9 נקודות, בהתאמה, כאשר ניתנים קלטי תמונות במקום טקסט.

על מנת לטפל בהיטוב הזה ולשפר את ביצועי המודל, החוקרים מציעים שני אספיקים – IsoCombination ו-IsoScratchPad. IsoScratchPad מתמקד בקליטת תרגומים בין צורות קלט מרובות, בעוד ש-IsoCombination חוקר עיבודים של ייצוגים קלט שונים.

על ידי השפעת יתרונות המודלים שונים של קלט, האספיקים הללו עוזרים להפחית את הפערים בביצועים בין מודלים בסיס. במהלך הניסויים, צוות החקירה הציג את כך ששני האספיקים IsoCombination ו-IsoScratchPad מרכיבים לשיפור ביצועי המודל, פותחים דרכים מעניינות למחקר נוסף ולקידום במערכות המולטימודליות ללמידת מכונה.

התרומה העיקרית של החוקרים יכולה להיסכם כך:

1. IsoBench: החוקרים הכניסו מערך נתונים בדיקה נרחב המכיל 1,630 דוגמאות בנושאים שונים, כולל שחמט, פיזיקה, כימיה ומתמטיקה דיסקרטית ויישומית. המערך מספק הערכות ביצועיות מולטימודליות מקיפות, שניתן היה לבצע בזכות הכללת ייצוגי קלט איזומורפיים ספציפיים לכל תחום.

2. הערכת ביצועים: באמצעות שימוש בIsoBench, הצוות העריך שמונה מודלים בסיס ידועים וזיהה דפוס עקבי. מודלים מולטימודליים עוברים על פי הערכת הנתונים ביתי על מודלי קלט מבוססי תמונות.

3. חיבור פערי הביצועים: החוקרים הציעו שני שיטות, IsoScratchPad (IsoSP) ו-IsoCombination (IsoCB), לחיבור לפערי ביצועים בין מודלים בסיס שונים. IsoSP מתרגם קלטים ויזואליים לייצוגים טקסטואליים במהלך הערכה, בעוד IsoCB משלב ייצוגי קלט.

על פי החקירה, הצוות מסיק כי במקרים מסוימים, יכולת המימוש של IsoCB ו-IsoSP יכולה לשפר את ביצועי מודלי היסוד המולטימודליים כאמעלה קרוב לעשר נקודות אחוז. אלה האספיקים עוזרים להפחית את התיק כלפי ייצוגים טקסטואליים, מאפשרים למודלים לבצע טוב יותר עם מגוון של מודים קלט.

לפרטים נוספים, ראו במאמר והפרויקט המקורי. הקרדיט על החקירה הזו מגיע לחוקרים מרוצים המעורבים בפרויקט זה. נשארו מעודכנים עם התובנות האחרונות שלנו על ידי המעקב אחרינו בטוויטר והצטרפות לערוץ הטלגרם שלנו, ערוץ הדיסקורד וקבוצת הלינקדאין שלנו.

שאלות נפוצות:

ש: מהו IsoBench?
ת: IsoBench הוא מערך נתונים ביונבשה המכיל אתגרי דימויים מתחומים שונים, המשמש להערכת ביצועי מודלי היסוד במולטימודליות.

ש: מהם IsoCombination ו-IsoScratchPad?
ת: IsoCombination ו-IsoScratchPad הם שתי אספיקים שהוצעו כדי לצמצם את פערי הביצועים שנגרמים ממודלים מולטימודליים. IsoCombination חוקר שילובים של ייצוגים קלט שונים, ו-IsoScratchPad מקל על תרגומים בין צורות קלט מרובות.

ש: איך מודלים מולטימודליים יכולים להשיב מ- IsoCombination ו-IsoScratchPad?
ת: אלה האספיקים עוזרים לחבר בין הפערים בביצועים בין מודלים בסיס שונים, מפחיתים הטייה ליצוגים טקסטואליים, ושופרים את ביצועי המודל.

The source of the article is from the blog zaman.co.at