آموزش کارآمد بر روی ابرماشین‌ها: NVIDIA در برابر AMD و Intel

در یک مقاله تحقیقی اخیر، مهندسان کامپیوتر در آزمایشگاه ملی اوریج (Oak Ridge) جزئیات آموزش موفق یک مدل زبان بزرگ (LLM) بر روی ابرماشین Frontier را تشریح کرده‌اند. قابل توجه است که آن‌ها در حین استفاده از فقط یک قسمت کوچکی از GPUهای موجود، نتایج قابل تحسینی حاصل کرده‌اند. این موضوع سوالاتی درباره کارایی آموزش بر روی سخت‌افزارهای مختلف ایجاد می‌کند.

تیم محققان با استفاده از 3,072 عدد از GPUهای Radeon Instinct در Frontier، موفق به آموزش یک LLM با یک تریلیون پارامتر شدند. آن‌ها با چالش‌هایی مرتبط با میزان عظیمی از حافظه مورد نیاز برای یک مدل بزرگ مثل این، که نیازمند استفاده از چند عدد از GPUهای MI250X بود، روبرو شدند. با این حال، این موضوع مسئله‌ای را مطرح نمود که برای بهره‌برداری بهینه از منابع اضافی GPU، لازم است به آن پرداخته شود.

با تکیه بر فریم‌ورک‌هایی مانند Megatron-DeepSpeed و FSDP، محققان برنامه آموزش را برای بهره‌وری بهینه در ابرماشین Frontier تنظیم نمودند. نتایج به شگفتی بودند؛ با بهره‌برداری ضعیف از پردازنده‌ها، بهره‌وری به میزان ۱۰۰٪ و با بهره‌برداری قوی ٨۷-٨۹٪ را کسب کردند. بهره‌وری قوی توانایی افزایش تعداد پردازنده‌ها بدون تغییر در اندازه وظیفه را اندازه‌گیری می‌کند.

مقاله‌ی تحقیقی همچنین اختلافات در سیستم‌های سخت‌افزاری NVIDIA، AMD و Intel را برجسته می‌کند. اغلب یادگیری ماشین در این مقیاس در چارچوب CUDA شرکت NVIDIA انجام می‌گیرد که سبب بازماندگی راه‌حل‌های AMD و Intel در مقابل آن می‌شود. مقاله، نیاز به بیشتر کاوش در زمینه کارایی آموزش بر روی GPUهای AMD و طبیعت پراکنده پلتفرم ROCm را تأیید می‌کند.

در حال حاضر، Frontier همچنان به عنوان سریع‌ترین ابرماشین با سخت‌افزار AMD، و Aurora بر اساس Intel در جایگاه دوم است. با این حال، تنها نیمی از جایگاه دوم تاکنون برای ارسال نتایج آزمایشی استفاده شده است. کارت‌های گرافیک NVIDIA به سرعت سومین ابرماشین، Eagle را تأمین می‌کنند. برای رقابت، AMD و Intel باید برای رسیدن به راه‌حل‌های نرم‌افزاری NVIDIA سعی کنند.

این تحقیق نه تنها نور جدیدی روی آموزش موفق مدل‌های زبان بزرگ در ابرماشین‌ها افکند بلکه اهمیت توسعه کارایی روش‌های آموزش کاربردی روی سیستم‌های سخت‌افزاری مختلف را نیز تأکید می‌کند. پیگیری روش‌های آموزش بهینه به رشد راه‌حل‌های AMD و Intel در زمینه یادگیری ماشین کمک خواهد کرد.

The source of the article is from the blog toumai.es