Entrenamiento eficiente en supercomputadoras: NVIDIA vs. AMD e Intel

En un reciente documento de investigación, ingenieros informáticos del Laboratorio Nacional Oak Ridge detallaron su exitoso entrenamiento de un gran modelo de lenguaje (LLM) en la supercomputadora Frontier. Lo destacado es que lograron resultados impresionantes utilizando solo una fracción de las GPUs disponibles. Esto plantea preguntas sobre la eficiencia del rendimiento de entrenamiento en diferentes ecosistemas de hardware.

El equipo utilizó 3,072 de las 37,888 GPUs Radeon Instinct en Frontier para entrenar un LLM con un billón de parámetros. Enfrentaron desafíos relacionados con la enorme cantidad de memoria requerida para un modelo tan grande, lo que requirió el uso de múltiples GPUs MI250X. Sin embargo, esto introdujo un problema de paralelismo que necesitaba ser abordado para utilizar de manera eficiente los recursos adicionales de GPU.

Al iterar en frameworks como Megatron-DeepSpeed y FSDP, los investigadores reconfiguraron el programa de entrenamiento para lograr un rendimiento óptimo en la supercomputadora Frontier. Los resultados fueron impresionantes, con una eficiencia de escalado débil del 100% y una eficiencia de escalado fuerte del 87-89%. La eficiencia de escalado fuerte mide la capacidad de aumentar el número de procesadores sin cambiar el tamaño de la carga de trabajo.

El documento de investigación también destaca las disparidades entre los ecosistemas de hardware de NVIDIA, AMD e Intel. La mayoría del aprendizaje automático a esta escala se lleva a cabo dentro del ecosistema CUDA de NVIDIA, dejando las soluciones de AMD e Intel menos desarrolladas en comparación. El documento reconoce la necesidad de explorar más para lograr un rendimiento de entrenamiento eficiente en las GPUs de AMD y la naturaleza dispersa de la plataforma ROCm.

Actualmente, Frontier sigue siendo la supercomputadora más rápida con hardware completamente AMD, seguida de Aurora, basada en Intel. Sin embargo, solo se ha utilizado la mitad de esta última para presentar resultados de referencia hasta ahora. Las GPUs de NVIDIA alimentan la tercera supercomputadora más rápida, Eagle. Para mantenerse competitivos, AMD e Intel deben esforzarse por alcanzar las soluciones de software de NVIDIA.

Esta investigación no solo arroja luz sobre el exitoso entrenamiento de grandes modelos de lenguaje en supercomputadoras, sino que también enfatiza la importancia de desarrollar un rendimiento de entrenamiento eficiente en diferentes ecosistemas de hardware. La búsqueda de metodologías de entrenamiento optimizadas fomentará el crecimiento de las soluciones de AMD e Intel en el campo del aprendizaje automático.

The source of the article is from the blog foodnext.nl