در یک مقاله تحقیقی اخیر، مهندسان کامپیوتر در آزمایشگاه ملی اوریج (Oak Ridge) جزئیات آموزش موفق یک مدل زبان بزرگ (LLM) بر روی ابرماشین Frontier را تشریح کردهاند. قابل توجه است که آنها در حین استفاده از فقط یک قسمت کوچکی از GPUهای موجود، نتایج قابل تحسینی حاصل کردهاند. این موضوع سوالاتی درباره کارایی آموزش بر روی سختافزارهای مختلف ایجاد میکند.
تیم محققان با استفاده از 3,072 عدد از GPUهای Radeon Instinct در Frontier، موفق به آموزش یک LLM با یک تریلیون پارامتر شدند. آنها با چالشهایی مرتبط با میزان عظیمی از حافظه مورد نیاز برای یک مدل بزرگ مثل این، که نیازمند استفاده از چند عدد از GPUهای MI250X بود، روبرو شدند. با این حال، این موضوع مسئلهای را مطرح نمود که برای بهرهبرداری بهینه از منابع اضافی GPU، لازم است به آن پرداخته شود.
با تکیه بر فریمورکهایی مانند Megatron-DeepSpeed و FSDP، محققان برنامه آموزش را برای بهرهوری بهینه در ابرماشین Frontier تنظیم نمودند. نتایج به شگفتی بودند؛ با بهرهبرداری ضعیف از پردازندهها، بهرهوری به میزان ۱۰۰٪ و با بهرهبرداری قوی ٨۷-٨۹٪ را کسب کردند. بهرهوری قوی توانایی افزایش تعداد پردازندهها بدون تغییر در اندازه وظیفه را اندازهگیری میکند.
مقالهی تحقیقی همچنین اختلافات در سیستمهای سختافزاری NVIDIA، AMD و Intel را برجسته میکند. اغلب یادگیری ماشین در این مقیاس در چارچوب CUDA شرکت NVIDIA انجام میگیرد که سبب بازماندگی راهحلهای AMD و Intel در مقابل آن میشود. مقاله، نیاز به بیشتر کاوش در زمینه کارایی آموزش بر روی GPUهای AMD و طبیعت پراکنده پلتفرم ROCm را تأیید میکند.
در حال حاضر، Frontier همچنان به عنوان سریعترین ابرماشین با سختافزار AMD، و Aurora بر اساس Intel در جایگاه دوم است. با این حال، تنها نیمی از جایگاه دوم تاکنون برای ارسال نتایج آزمایشی استفاده شده است. کارتهای گرافیک NVIDIA به سرعت سومین ابرماشین، Eagle را تأمین میکنند. برای رقابت، AMD و Intel باید برای رسیدن به راهحلهای نرمافزاری NVIDIA سعی کنند.
این تحقیق نه تنها نور جدیدی روی آموزش موفق مدلهای زبان بزرگ در ابرماشینها افکند بلکه اهمیت توسعه کارایی روشهای آموزش کاربردی روی سیستمهای سختافزاری مختلف را نیز تأکید میکند. پیگیری روشهای آموزش بهینه به رشد راهحلهای AMD و Intel در زمینه یادگیری ماشین کمک خواهد کرد.
The source of the article is from the blog toumai.es