Verimli Eğitim: NVIDIA vs. AMD ve Intel

Oak Ridge National Laboratory’deki bilgisayar mühendisleri yakın zamanda bir araştırma makalesinde, Frontier süper bilgisayarında büyük bir dil modelinin (LLM) etkili bir şekilde eğitimini detaylandırdılar. Dikkate değer olan, etkileyici sonuçlar elde ederken sadece mevcut GPU’ların bir kısmını kullandıklarıdır. Bu, farklı donanım ekosistemleri arasında eğitim performansının verimliliği hakkında sorular ortaya çıkarıyor.

Ekip, 37.888 adet Radeon Instinct GPU’nun sadece 3.072’sini kullanarak bir trilyon parametreye sahip bir LLM’i eğitmek için Frontier’daki çalışmasını yaptı. Bu kadar büyük bir model için gereken büyük miktarda bellekle ilgili zorluklarla karşılaşarak, birden çok MI250X GPU’nun kullanılmasını gerektirdi. Bununla birlikte, bu, ek GPU kaynaklarını etkili bir şekilde kullanabilmek için ele alınması gereken bir paralellik sorunu ortaya çıkardı.

Araştırmacılar, Megatron-DeepSpeed ve FSDP gibi çerçeveler üzerinde tekrarlayarak, Frontier süper bilgisayarında optimal performans için eğitim programını yeniden yapılandırdılar. Sonuçlar etkileyiciydi, zayıf ölçeklenebilirlik verimliliği %100’e kadar ulaştı ve güçlü ölçeklenebilirlik verimliliği %87-89 oldu. Güçlü ölçeklenebilirlik verimliliği, iş yükü boyutunu değiştirmeden işlemci sayısını artırma yeteneğini ölçer.

Araştırma makalesi ayrıca, NVIDIA, AMD ve Intel’in donanım ekosistemleri arasındaki farklara da dikkat çekiyor. Bu ölçekteki çoğu makine öğrenmesi NVIDIA’nın CUDA ekosisteminde gerçekleştirilirken, AMD’nin ve Intel’in çözümlerinin daha az gelişmiş olduğunu belirtiyor. Makale, AMD GPU’larında verimli eğitim performansının daha fazla araştırılmasına ve ROCm platformunun seyrek yapısına dikkat çekiyor.

Şu anda, Frontier tüm-AMD donanıma sahip en hızlı süper bilgisayar olarak kalmaktadır ve onu Intel tabanlı Aurora takip etmektedir. Ancak, ikincisi henüz benchmark gönderilerinin yarısıyla kullanılmış durumdadır. NVIDIA GPU’lar, üçüncü en hızlı süper bilgisayar olan Eagle’ı desteklemektedir. Rekabetçi olabilmek için AMD ve Intel, NVIDIA’nın yazılım çözümlerine yetişmek için çaba sarf etmelidir.

Bu araştırma, sadece büyük dil modellerinin süper bilgisayarlarda başarılı bir şekilde eğitimi hakkında bilgi vermekle kalmaz, aynı zamanda farklı donanım ekosistemlerinde verimli eğitim performansının geliştirilmesinin önemine de vurgu yapar. Optimizasyonlu eğitim metodolojilerinin takip edilmesi, AMD ve Intel’in makine öğrenimi alanındaki çözümlerinin gelişimini destekleyecektir.

The source of the article is from the blog macholevante.com