Nuove tecniche di formazione sfruttano il potere dei supercomputer

Riassunto: I ricercatori dei Laboratori Nazionali di Oak Ridge hanno sfruttato il potere del supercomputer più potente al mondo, il Frontier, per addestrare un ampio modello di linguaggio (LLM) con un trilione di parametri. Utilizzando una combinazione di parallelismo di tensore, parallelismo di pipeline e parallelismo di dati, sono riusciti a ottenere tempi di formazione più rapidi e picchi di produzione per modelli di diverse dimensioni. Tuttavia, i ricercatori non hanno ancora divulgato le tempistiche specifiche per la formazione del LLM.

I supercomputer di solito non vengono utilizzati per l’addestramento di LLM, poiché richiedono server più specializzati e un numero significativamente maggiore di GPU. In confronto, ChatGPT, un noto modello di linguaggio, è stato addestrato su oltre 20.000 GPU. Tuttavia, i ricercatori dei Laboratori Nazionali di Oak Ridge volevano esplorare il potenziale di addestrare LLM sui supercomputer e determinare se potessero migliorare l’efficienza.

Una delle sfide affrontate è stata la limitata VRAM di ogni singola GPU. Per superare questo problema, i ricercatori hanno raggruppato più GPU insieme e ottimizzato la comunicazione parallela tra i componenti. Ciò ha consentito una migliore utilizzazione delle risorse all’aumentare delle dimensioni del LLM.

Con il loro nuovo approccio, i ricercatori hanno ottenuto risultati impressionanti. Per i diversi modelli di scala dei parametri addestrati, hanno raggiunto picchi di produzione che vanno dal 31,96% al 38,38%. Hanno inoltre dimostrato un’efficienza di scalabilità debole del 100% e prestazioni di scalabilità forte comprese tra l’87,05% e l’89,93% per i modelli più grandi.

Nonostante i ricercatori abbiano condiviso apertamente informazioni sulle risorse di calcolo utilizzate e sulle tecniche impiegate, non hanno ancora fornito dettagli specifici sulle tempistiche di formazione. Ciò lascia aperta una domanda su quanto più veloce possa essere l’addestramento di LLM sui supercomputer rispetto ai metodi tradizionali.

Questa ricerca apre nuove possibilità per addestrare modelli di linguaggio ampi in modo più efficiente. La combinazione di tecniche specializzate e l’enorme potenza computazionale dei supercomputer offre una promettente strada per ulteriori progressi nel processing del linguaggio naturale e nell’IA. Man mano che sempre più ricercatori esplorano queste nuove tecniche di formazione, ci aspettiamo di vedere modelli di linguaggio ancora più impressionanti in futuro.

The source of the article is from the blog elblog.pl