Nove metode treninga odklepajo moč super računalnikov

Povzetek: Raziskovalci na Oak Ridge National Laboratory so uspeli izkoristiti moč najzmogljivega super računalnika na svetu, Frontier, za treniranje velikega jezikovnega modela (LLM) z en trilijonom parametrov. Z uporabo kombinacije tensorne paralelizacije, cevne paralelizacije in paralelizacije podatkov so dosegli hitrejše čase usposabljanja in vrhunske pretoke za modele različnih velikosti. Vendar pa raziskovalci še niso razkrili specifičnih časovnih okvirov za usposabljanje LLM.

Super računalniki običajno niso uporabljeni za usposabljanje LLM, saj zahtevajo bolj specializirane strežnike in bistveno večje število grafičnih procesnih enot. V primerjavi s ChatGPT, dobro znanim jezikovnim modelom, so bili trenirani na več kot 20.000 grafičnih procesnih enotah. Vendar pa so raziskovalci na Oak Ridge National Laboratory želeli raziskati potencial usposabljanja LLM na super računalnikih in ugotoviti, ali lahko povečajo učinkovitost.

Eden od izzivov, s katerim so se soočali, je bila omejena količina pomnilnika grafične procesne enote. Da bi to premagali, so raziskovalci združili več grafičnih procesnih enot in optimizirali vzporedno komunikacijo med komponentami. To jim je omogočilo boljšo uporabo virov pri povečevanju velikosti LLM.

S svojim novim pristopom so raziskovalci dosegli impresivne rezultate. Za različne modele z različnim številom parametrov so dosegli vrhunske pretoke od 31,96 % do 38,38 %. Prav tako so pokazali 100-odstotno učinkovitost pri šibki skaliranju in učinkovitost pri močnem skaliranju od 87,05 % do 89,93 % za večje modele.

Čeprav so raziskovalci odprto delili informacije o uporabljenih računalniških virih in tehnikah, niso še zagotovili specifičnih podatkov o časovnih okvirih za usposabljanje. To pušča odprto vprašanje, kako hitro je lahko treniranje LLM na super računalnikih v primerjavi s tradicionalnimi metodami.

Ta raziskava odpira nove možnosti za bolj učinkovito usposabljanje velikih jezikovnih modelov. Kombinacija specializiranih tehnik in izjemne računske moči super računalnikov ponuja obetaven pristop za nadaljnje napredke na področju obdelave naravnega jezika in umetne inteligence. Ko bodo raziskovalci raziskovali te nove tehnike usposabljanja, lahko pričakujemo, da bomo v prihodnosti videli še bolj impresivne jezikovne modele.