Trénování modelů s bilionem parametrů na AMD hardware: Překonávání výzev

Trénování velkých AI modelů efektivně na stovkách uzlů je výzvou, zejména když většina zátěží je optimalizována pro Nvidia hardware a platformu CUDA. Nicméně výzkumníci z Oak Ridge National Laboratory (ORNL) dosáhli významného pokroku při trénování modelů s jedním bilionem parametrů pomocí GPU MI250X od AMD.

MI250X je výkonný výpočetní engine pro tradiční high-performance computing (HPC) zátěže, který nabízí přesné desetinné výpočty dvojité přesnosti. Přestože dvojitá přesnost není potřebná pro AI zátěže, MI250X dosahuje úctyhodných 383 teraflopů výkonu při použití přesnosti FP16. S 37 888 GPU k dispozici měl tým ORNL za cíl optimalizovat supertpočítač Frontier pro trénování velkých AI modelů.

ORNL čelil několika výzvám v této snaze. Zaprvé museli přenést svůj projekt na AMD ROCm runtime, což vyžadovalo spolupráci s vývojáři AMD. Převedení CUDA kódu do platforma-agnostického formátu není jednoduchý úkol, ale na této oblasti se stále pracuje.

Navíc výzkumníci zjistili, že škálování paralelismu tensorů napříč uzly vedlo k úzkým místům ve zpoždění. Nejlepší výsledky byly dosaženy omezováním paralelismu tensorů na jediný uzel s osmi GPU. Navíc tým implementoval optimalizátor ZeRO-1 pro snížení režie paměti a využil rozšíření knihovny pro komunikaci mezi uzly Amazon Web Services‘ ROCm collective communication library (RCCL) pro zlepšení stability komunikace mezi uzly.

Pokud jde o efektivitu, slabé škálování (zvyšování počtu GPU pro pevnou velikost problému) se ukázalo jako 100% efektivní. Avšak škálování s pevnou velikostí problému vedlo k klesajícím zisky kvůli různým úzkým místům.

Zatímco úspěch ORNL při trénování velkých AI modelů na AMD hardware je chvályhodný, stále je potřeba provést další práce na zlepšení výkonu těchto zátěží. Většina trénovacích rámců je navržena pro Nvidia hardware a podpora pro platformu ROCm je stále omezená. Nicméně získané poznatky z tohoto experimentu mohou sloužit jako blueprint pro jiná zařízení s ne-Nvidia, ne-CUDA systémy, což nabízí naději na širší přijetí AMD hardware při trénování AI.

The source of the article is from the blog reporterosdelsur.com.mx