Kasutades eneseõpet, et parandada suurte keelemudelite jõudlust

UCLA teadlased on välja töötanud läbimurdelise meetodi nõrkade suurte keelemudelite (LLM) jõudluse parandamiseks, ilma vajaduseta täiendava inimese tagasiside järele. See uudne häälestamismeetod, mida nimetatakse eneseõppe häälestamiseks (SPIN), võimaldab LLM-idel kaasata end omaenda vastustega eneseõppesse, parandades nii nende loomuliku keele mõistmist.

Varasemad lähenemisviisid sellele probleemile hõlmasid sünteetiliste andmete kasutamist binäärsel tagasisidel või nõrgemate mudelite kasutamist tugevamate juhendamiseks. Siiski pakub SPIN tõhusamat lahendust, mis kaotab nõude inimese binäärsele tagasisidele ning toimib suurepäraselt ühe LLM-iga.

SPIN protsessi saab vaadelda kaheosalise mänguna. Esimene mudel genereerib vastuseid, mis sarnanevad inimese poolt märgistatud andmekoguga, samas kui teine mudel püüab eristada esimese mudeli poolt genereeritud vastuseid ja inimeste poolt genereeritud vastuseid. Teine mudel on häälestatud eelistama sihtandmestiku vastuseid esimese mudeli poolt genereeritud vastuste asemel. Seda iteratsiooni jätkatakse seni, kuni LLM ei suuda enam eristada omaenda genereeritud vastuseid ja inimeste poolt genereeritud vastuseid.

SPINi tõhusust illustreerimiseks viisid teadlased läbi eksperimendi, kus LLM-ile anti ülesanne loetleda populaarsed transpordivormid Londonis. Algselt pakkus mudel ebatäpseid vastuseid. Siiski, iteratsioonide edenedes, paranes mudeli jõudlus ja see pakkus vastuseid, mis olid lähemal tõele.

Teadlased kasutasid oma hindamisteks zephyr-7b-sft-full mudelit, mis põhineb eelhäälestatud Mistral-7B mudelil ja mis oli täiendavalt häälestatud SFT andmekogul. Tulemused näitasid, et SPIN parandas mudeli keskmist skoori esimeses iteratsioonis 2,66% võrra ja järgnevates iteratsioonides veel 1,32% võrra.

SPINil on potentsiaal muuta nõrgad LLM-id tugevateks ilma inimese märgistajate vajaduseta. Kasutades eneseõppe mehhanismi, parandab see raamistik oluliselt häälestatud mudelite jõudlust SFT andmekogudel. Kuigi nende lähenemisviisil on mõningad piirangud, pakuvad teadlased tulevikus tööd sihtandmestiku jaotuse dünaamilise muutmisega seotud probleemide lahendamiseks.

See uurimistöö on oluline samm suurte keelemudelite võimaluste maksimeerimise suunas loomuliku keele töötlemises ning avab põnev

The source of the article is from the blog regiozottegem.be