Naujos treniravimo technikos atskleidžia superkompiuterių galią

Santrauka: Tyrimai Oak Ridge Nacionalinėje laboratorijoje išnaudojo pačio galingiausio superkompiuterio Frontier galią, kad apmokyti didelio dydžio kalbos modelį, turintį vietrilijoną parametrą. Išnaudojant kombinaciją tenzorių, grandinės ir duomenų pasiskirstymo metodų, pasiekta greitesnio modelių apmokymo laiko ir didžiausio našumo skirtingo dydžio modeliams. Tačiau tyrėjai dar nenurodė konkretiškų laiko intervalų, kurie reikalingi LLM apmokymui.

Superkompiuteriai įprastai nenaudojami LLM apmokymui, nes norint jų apmokyti reikalingos specializuotos serverinės įrangos ir ženkliai daugiau grafinių procesorių. Pavyzdžiui, žinomas kalbos modelis ChatGPT buvo apmokytas naudojant daugiau nei 20 000 grafinių procesorių. Tačiau Oak Ridge Nacionalinės laboratorijos tyrėjai norėjo ištyrinėti LLM apmokymo potencialą superkompiuteriuose ir nustatyti, ar efektyvumas gali būti pagerintas.

Viena iš iššūkių, su kuriais jie susidūrė, buvo kiekvieno atskiro grafinio proceso talpos apribojimas. Tam, kad tai įveiktų, tyrėjai sujungė kelis grafinius procesorius į grupes ir optimizavo lygiagretų ryšį tarp komponentų. Tai leido geriau išnaudoti išteklius, didinant LLM dydį.

Su jų nauju požiūriu, tyrėjai pasiekė įspūdingų rezultatų. Apmokydami modelius su skirtingais parametrų dydžiais, jie pasiekė didžiausius našumo rodiklius nuo 31,96% iki 38,38%. Jie taip pat parodė 100% silpnosios skalavimosi efektyvumo ir stipraus skalavimo efektyvumą nuo 87,05% iki 89,93% dideliems modeliams.

Tyrėjai atvirai dalijosi informacija apie naudotas skaičiavimo priemones ir naudotus metodus, tačiau dar nedetalizavo apie konkretesnius apmokymo laiko intervalus. Tai užkrauna klausimą, kiek greičiau galima apmokyti LLM naudojant superkompiuterius, lyginant su tradiciniais metodais.

Šis tyrimas atveria naujas galimybes efektyviau apmokyti didelius kalbos modelius. Specializuotų technikų ir superkompiuterių galingųjų skaičiavimo jėgų derinys yra žadantis kelias tolimesniems naujovių prasiskverbimui į natūralios kalbos apdorojimą ir dirbtinį intelektą. Kaip vis daugiau tyrėjų tyrinėja šias naujas treniravimo technikas, ateityje galime tikėtis dar įspūdingesnių kalbos modelių.

The source of the article is from the blog dk1250.com