Formação Eficiente em Supercomputadores: NVIDIA vs. AMD e Intel

Em um recente artigo de pesquisa, engenheiros de computação do Laboratório Nacional Oak Ridge detalharam o seu bem-sucedido treinamento de um grande modelo de linguagem (LLM) no supercomputador Frontier. O que é notável é que eles alcançaram resultados impressionantes usando apenas uma fração das GPUs disponíveis. Isso levanta questões sobre a eficiência do desempenho de treinamento em diferentes ecossistemas de hardware.

A equipe utilizou 3.072 das 37.888 GPUs Radeon Instinct no Frontier para treinar um LLM com um trilhão de parâmetros. Eles enfrentaram desafios relacionados à enorme quantidade de memória necessária para um modelo tão grande, o que exigiu o uso de várias GPUs MI250X. No entanto, isso introduziu um problema de paralelismo que precisava ser resolvido para aproveitar totalmente os recursos adicionais das GPUs de maneira eficiente.

Ao iterar em frameworks como Megatron-DeepSpeed e FSDP, os pesquisadores reconfiguraram o programa de treinamento para obter o melhor desempenho no supercomputador Frontier. Os resultados foram impressionantes, com eficiência de escalabilidade fraca alcançando 100% e eficiência de escalabilidade forte entre 87-89%. A eficiência de escalabilidade forte mede a capacidade de aumentar o número de processadores sem alterar o tamanho da carga de trabalho.

O artigo de pesquisa também destaca as disparidades entre os ecossistemas de hardware da NVIDIA, AMD e Intel. A maior parte do aprendizado de máquina nessa escala é realizada dentro do ecossistema CUDA da NVIDIA, deixando as soluções da AMD e Intel subdesenvolvidas em comparação. O artigo reconhece a necessidade de explorar mais a eficiência do desempenho de treinamento em GPUs AMD e a natureza esparsa da plataforma ROCm.

Atualmente, o Frontier continua sendo o supercomputador mais rápido com hardware totalmente AMD, seguido pelo Aurora, baseado em Intel. No entanto, apenas metade desse último foi utilizada para envio de benchmarks até o momento. As GPUs NVIDIA alimentam o terceiro supercomputador mais rápido, o Eagle. Para se manterem competitivas, a AMD e a Intel devem se esforçar para alcançar as soluções de software da NVIDIA.

Esta pesquisa não apenas lança luz sobre o treinamento bem-sucedido de grandes modelos de linguagem em supercomputadores, mas também enfatiza a importância do desenvolvimento de um desempenho de treinamento eficiente em diferentes ecossistemas de hardware. A busca por metodologias de treinamento otimizadas irá impulsionar o crescimento das soluções da AMD e Intel no campo do aprendizado de máquina.

The source of the article is from the blog regiozottegem.be