אימון יעיל על מחשבים על

במאמר מחקר חדשני, מהנדסי מחשבים במעבדה הלאומית אוק רידג 'ס מתארים את האימון המוצלח של מודל שפה גדול (LLM) על מחשב על מסוג פרונטיר. המעניין ביותר הוא שהם הצליחו להשיג תוצאות מרשימות תוך שימוש רק בפרות מהכרטיסיות הזמינות. זה מעלה שאלות בנוגע ליעילות של ביצועי האימון על מערכתות חומרה שונות.
הצוות השתמש ב-3,072 מתוך 37,888 כרטיסיות Radeon Instinct בפרונטיר כדי לאמן LLM בעל אחד טריליון פרמטרים. הם נתקלו באתגרים הקשורים לכמות הזיכרון הגדולה הנדרשת למודל כה גדול, והיו צריכים להשתמש במספר כרטיסיות MI250X מרובות. אך זה הביא לבעיה של פרלליזם שהייתה צריכה להתמודד כדי לנצל את משאבי הכרטיסיות הנוספות ביעילות.
על ידי עבודה על מסגרות כמו Megatron-DeepSpeed ו-FSDP, החוקרים קונפיגורצו מחדש את תוכנית האימון עבור ביצועים מיטביים על מחשב על מסוג פרונטיר. התוצאות היו מרשימות, עם יעילות סקייל חלש שגיעה ל-100% ויעילות סקייל חזקה שבין 87% ל-89%. יעילות סקייל חזקה מודדת את היכולת להגדיל את מספר מעבדים בלי לשנות את גודל התעסוקה.
המאמר לקוח מדגיש גם את הדיבוק בין מערכות החומרה של NVIDIA, AMD ו-Intel. רוב למידת מכונה במידות הללו מתבצע בממשק ה- CUDA של NVIDIA, המשאיר את הפתרונות של AMD ו-Intel פחות מפותחים בהשוואה. המאמר מכיר בצורך לחקור יותר את ביצועי האימון היעיל על כרטיסיות AMD ואת הטבע הצפוי ונדיר של פלטפורמת ROCm.
כיום, פרונטיר נחשבת למחשב העל-מהיר ביותר עם חומרת AMD בלבד, ואחריה יש אורורה המבוססת על Intel. אך רק חצי מאורורה נעשה בו שימוש עד כה למטרת מידות ביצועים. כרטיסיות NVIDIA מספקות כוח למחשב העל-מהיר השלישי, הנקרא אייגל. כדי להישאר מתחרותיים, AMD ו-Intel חייבות להתאמץ להשיג את פתרונות התוכנה של NVIDIA.
המחקר הזה לא רק מעניק תובנות לגבי האימון המוצלח של מודלים גדולי גודל במחשבים על, אלא גם דוגמת את החשיבות של פיתוח ביצועי אימון יעילים על מערכות חומרה שונות. ריבוי המתודולוגיות המתוכנתות באופן מיטבי יקדים את הצמיחה של פתרונות המדע המהולך של AMD ו-Intel.

The source of the article is from the blog aovotice.cz