Szkolenie modeli o bilionie parametrów na sprzęcie AMD: Pokonywanie wyzwań

Szkolenie skalowalnych modeli sztucznej inteligencji na setkach węzłów stanowi wyzwanie, zwłaszcza gdy większość obciążeń jest zoptymalizowana pod kątem sprzętu Nvidia i CUDA. Jednak badacze z Oak Ridge National Laboratory (ORNL) poczynili znaczne postępy w szkoleniu modeli o bilionie parametrów za pomocą GPU AMD MI250X.

MI250X jest potężnym silnikiem obliczeniowym dedykowanym tradycyjnym obciążeniom obliczeniowym o wysokiej wydajności (HPC), oferując imponującą wydajność w obliczeniach zmiennoprzecinkowych podwójnej precyzji. Chociaż podwójna precyzja nie jest konieczna dla obciążeń AI, MI250X wciąż oferuje imponujące 383 teraflopy wydajności przy precyzji FP16. Dysponując 37 888 procesorami graficznymi, zespół ORNL miał na celu zoptymalizowanie superkomputera Frontier do szkolenia dużych modeli sztucznej inteligencji.

ORNL napotkało wiele wyzwań podczas tego przedsięwzięcia. Po pierwsze, musieli przenieść swój projekt na środowisko wykonawcze ROCm firmy AMD, co wymagało współpracy z programistami AMD. Przekonwertowanie kodu CUDA na format niezależny od dostawcy nie jest zadaniem prostym, ale w tym obszarze dokonano postępów.

Dodatkowo, badacze zauważyli, że skalowanie tensorowe wśród węzłów prowadziło do wąskich gardeł związanych z opóźnieniami. Najlepsze wyniki osiągnięto, ograniczając skalowanie tensorowe do jednego węzła z ośmioma GPU. Ponadto, zespół zastosował optymalizator ZeRO-1 w celu zmniejszenia obciążeń pamięciowych i wykorzystał wtyczkę Amazon Web Services do biblioteki komunikacji zbiorczej ROCm (RCCL) w celu poprawy stabilności komunikacji między węzłami.

Pod względem wydajności, skalowanie osłabione (zwiększenie liczby GPU dla ustalonego rozmiaru problemu) okazało się skuteczne w 100 procentach. Jednak skalowanie względem ustalonego rozmiaru problemu prowadziło do malejących zysków z powodu różnych wąskich gardeł.

Chociaż osiągnięcia ORNL w szkoleniu dużych modeli AI na sprzęcie AMD są godne uznania, wciąż trzeba pracować nad poprawą wydajności tych obciążeń. Większość platform szkoleniowych jest przeznaczona dla sprzętu Nvidia, a wsparcie dla platformy ROCm jest nadal ograniczone. Niemniej jednak, wnioski wyciągnięte z tego eksperymentu mogą posłużyć jako wzór do naśladowania dla innych placówek korzystających z systemów nienvidiańskich i nienawiązujących do CUDA, co daje nadzieję na szersze przyjęcie sprzętu AMD w szkoleniach z zakresu sztucznej inteligencji.

The source of the article is from the blog smartphonemagazine.nl