Naujas požiūris į didelių kalbos modelių mokymą: žada efektyvią ištyrimą

Dirbant su dideliais kalbos modeliais (DKM), aktyvus mokymo procesas per žmonių grįstą grįžtamąjį ryšį vis dar lieka iššūkiu, nors dirbtinio intelekto srityje pastarieji metai atnešė žymias pažangas, dėka didelių kalbos modelių (DKM) ir įvairių būdų, tokio kaip sustiprintasis mokymas iš žmonių grįžtamųjų ryšių (SMŽGR), optimizuojant mokymo procesą.

Tradicinėje DKM mokyme buvo naudojama pasyvi tyrinėjimo metodika, kurioje modeliai generavo atsakus remiantis iš anksto apibrėžtomis užduotimis ir aktyviai nenorėjo tobulėti, nepriimant grįžtamųjų ryšių. Tokia metodika reikalavo nuolatinių sąveikų ir nebuvo efektyvi norint greitai tobulinti modelį. Nors naudoti buvo įvairūs tyrinėjimo metodai, pvz., Bolcmano tyrinėjimas ir Infomax, jie dažnai reikalavo didelės skaičiavimo žmogiškų sąveikų apimties, kad būtų gauti pastebimi rezultatai.

Google Deepmind ir Stanfordo universiteto mokslininkai dabar pasiūlė naują aktyvaus tyrinėjimo metodiką, kuriai naudojami dvigubo Thompsono bandymo (DTB) ir episteminių neuroninių tinklų (ENT) principai užklausų generavimui. Šis aktyvus tyrinėjimo metodas leidžia modeliui aktyviai ieškoti informatyvių grįžtamųjų ryšių ir žymiai sumažina užklausų skaičių, reikalingą pasiekti aukšto našumo lygio.

Jų eksperimentais buvo kuriami atsakymai į 32 užduotis, kurias vertino prioritetas išmanymo simulatorius. Šių vertinimų grįžtamųjų ryšių naudojamas optimizuoti atlygio modelius kiekvieno epochos pabaigoje. Parenkant informatyviausius poras iš kandidatų sąrašo, naudojant ENT, modelis efektyviau tyrinėjo atsakymų erdvę.

Rezultatai parodė, kad dvigubas Thompsono bandymas (DTB) pranoko kitus tyrinėjimo metodus, tokius kaip Bolcmano tyrinėjimas ir Infomax, ypač naudojant neapibrėžtumo įverčius iš ENT atlygio modelio. Ši metodologija pagreitino mokymo procesą ir parodė galimybes sumažinti žmogiškų grįžtamųjų ryšių apimtį, siekiant efektyvaus tyrinėjimo.

Šis tyrimas atveria naujas galimybes greitam ir efektyviam modelių tobulinimui, pritaikant pažangias tyrinėjimo algoritmus ir neapibrėžtumo įverčius. Tai akcentuoja mokymo proceso optimizavimo svarbą didinant dirbtinio intelekto nuopelnus. Su šiais pokyčiais galime tikėtis efektyvesnių didelių kalbos modelių mokymo būdų ir sužavėjančių dirbtinio intelekto taikymo sričių.

DUK skyrius:

K: Koks yra pagrindinis didelių kalbos modelių (DKM) mokymo proceso optimizavimo iššūkis per žmonių grįstą grįžtamąjį ryšį?
A: Pagrindinis iššūkis yra rasti būdą efektyviai tobulinti DKM pagal grįžtamąjį ryšį, nes tradiciniai metodai pasirodė neefektyvūs ir reikalavo didelio žmogiškų sąveikų skaičiaus.

K: Kas yra aktyvus tyrinėjimas atsižvelgiant į DKM jausmą?
A: Aktyvus tyrinėjimas yra metodika, kurioje DKM aktyviai siekia informatyvaus grįžtamųjų ryšių, siekdamas pagerinti savo veiklos rezultatus, o ne priklauso nuo pasyvaus tyrinėjimo, kur reakcijos generuojamos remiantis iš anksto apibrėžtomis užduotimis.

K: Kas yra dvigubas Thompsono bandymas (DTB) ir episteminių neuroninių tinklų (ENT)?
A: Dvigubas Thompsono bandymas (DTB) ir episteminių neuroninių tinklų (ENT) yra metodai, naudojami pasiūlytame aktyvaus tyrinėjimo metode. Dvigubas Thompsono bandymas yra metodas, skirtas išlaikyti balansą tarp tyrinėjimo ir išnaudojimo, o episteminiuose neuroniniuose tinkluose naudojami užklausų generavimui, siekiant efektyviai tyrinėti atsakymų erdvę.

K: Kaip mokslininkai įvertino DKM veiksmingumą?
A: Agentai generavo atsakymus į 32 užduotis, kurias tuomet įvertino prioriteto išmanymo simulatorius. Šiems vertinimams gautas grįžtamasis ryšys buvo naudojamas optimizuoti atlygio modelius kiekvieno eksploatacijos pabaigoje.

K: Kokie buvo eksperimentų rezultatai?
A: Eksperimentai parodė, kad dvigubas Thompsono bandymas (DTB) pasirodė geresnis nei kitos tyrinėjimo metodikos, tokios kaip Bolcmano tyrinėjimas ir Infomax. Naudojant neapibrėžtumo įverčius iš ENT atlygio modelio, mokymo procesas paspartėjo, o žmogiškojo grįžtamųjų ryšių skaičius sumažėjo.

Apibrėžimai:

– Dideli kalbos modeliai (DKM): Pažangūs modeliai, skirti apdoroti ir generuoti žmogaus kalba paremtą tekstą.
– Sustiprintasis mokymas iš žmonių grįžtamųjų ryšių (SMŽGR): Technika, kuri naudoja žmonių grįžtamąjį ryšį, siekiant pagerinti modelio veikimą per sustiprintąjį mokymąsi.
– Bolcmano tyrinėjimas: Metodika, kuri paskirsto veiksmams tikimybes, siekdama išlaikyti balansą tarp tyrinėjimo ir išnaudojimo.
– Infomax: Metodika, kuri siekia maksimalaus informacijos kiekio agento aplinkoje.

Siūlomi susiję nuorodų šaltiniai:

– DeepMind: DeepMind yra dirbtinio intelekto tyrimų organizacija, kuri padarė reikšmingų įnašų šioje srityje.
– Stanfordo universitetas: Stanfordo universitetas yra garsus akademinis institutas, žinomas savo tyrimais ir inovacijomis įvairiose srityse.

The source of the article is from the blog girabetim.com.br