Naujosios strategijos efektyviam didelių kalbos modelių įvykdymui vartotojams skirtame aparate

Paskutiniais metais didelių kalbos modelių (DKM) plačiai naudojimas sukūrė poreikį efektyviai vykdyti šiuos modelius vartotojams skirtame aparate. Vienas žadančių veiksmingumo būdų – retų ekspertų mišinio (EMM) architektūros naudojimas, leidžiantis generuoti žymiai greičiau nei tankesnių analogų. Tačiau iššūkis yra didesnio modelio dydis dėl kelių „ekspertų” buvimo, dėl ko tampa sunku vykdyti šiuos modelius be brangių grafikos procesorių (GPU).

Norint spręsti šį iššūkį, naujausiame straipsnyje siūloma naujoviška strategija, kuri pasinaudoja pačia EMM DKM savybėmis. Autoriai nagrinėja didelių EMM kalbos modelių vykdymą vartotojams skirtame aparate ir tyrinėja dvejopą optimizavimo galimybių kelią: modelio parametrų suspaudimą ir juos perkėlimą į pigesnį saugojimo laikmeną, pavyzdžiui, BŽM ar SSD atmintį. Svarbu pažymėti, kad šie optimizavimai yra orientuoti į vykdymą, o ne mokymą.

Straipsnyje pristatomas vienas iš svarbiausių strategijų – parametrų perkėlimas, kuris apima modelio parametrų perkėlimą į pigesnę atmintį ir jų įkėlimą tik tuo metu, kai jie reikalingi skaičiavimui. Šis metodas ypač veiksmingas giliosios mokymosi modeliams su fiksuota sluoksnių tvarka, leidžiantis išankstiniam tolimesnio sluoksnio parametrų pasiuntimui fone.

Straipsnyje pristatoma ir eksperto vieta ir naujausia naudojamojo resursų atmintis (NRA) strategija, remiantis šablonu, pastebėtu EMM modeliuose, kuriuose atskiri ekspertai priskiriami skirtingiems sub-taskams. Išsaugodami aktyvius ekspertus GPU atmintyje kaip „rojują” būsimiems ženklams, autoriai pastebi žymų greičio padidėjimą moderniuose EMM modeliuose.

Norint spręsti eksperto įkėlimo laiko iššūkį, autoriai siūlo spekuliatyvų eksperto įkėlimą. Šiuo metodu remiantis pagal ankstesnio sluoksnio paslėptųjų būsenų langų atidarymo funkciją atspėjama tikėtina būsima ekspertų skaičius, taip palengvinant tolimesnio sluoksnio vykdymo procesą.

Kitą strategiją, nagrinėjamą straipsnyje, yra EMM kvantifikacija, kurios dėka suspausti modeliai greičiau įkraunami į GPU. Autoriai naudoja „pusė kvadratinės kvantifikacijos” (HQQ) metodą dėl jo duomenų neturinčių kvantifikavimo galimybių, pasiekiant geresnį kokybė-dydis santykį ekspertų kvantifikavimo procese.

Iš viso, įvertinus pasiūlytas strategijas naudojant populiarius EMM modelius, parodytas reikšmingas generavimo greičio padidėjimas naudojant vartotojams skirtą aparatūrą. Šie optimizavimai daro didelius EMM modelius pasiekiamus tirti ir plėtoti, atverdami naujas galimybes jų praktinei taikymui.

The source of the article is from the blog toumai.es