Novi pristupi u učenju ojačanja na temelju povratnih informacija ljudi

Istraživači sa Fudan NLP Lab, Fudan Vision and Learning Lab i Hikvision Inc. razvili su inovativne tehnike koje poboljšavaju učenje ojačanja na temelju povratnih informacija ljudi (RLHF). Introducirajući nove metode kako bi se riješili netočnih i nejasnih preferencija u skupovima podataka, ovi istraživači su otvorili put za preciznije razumijevanje ljudske namjere.

Jedan ključni aspekt RLHF-a je model nagrade koji djeluje kao glavni mehanizam za uključivanje ljudskih preferencija u proces učenja. Međutim, modeli nagrada temeljeni na specifičnim distribucijama podataka često imaju teškoća u generalizaciji izvan tih distribucija, što otežava efektivno trening RLHF-a. Kako bi prevladali tu ograničenost, istraživači su predložili mjerenje snage preferencije putem mehanizma glasanja koji uključuje više modela nagrada. Ovaj pristup pomaže u otklanjanju netočnih i nejasnih preferencija, poboljšavajući opću generalizaciju modela nagrade.

U studiji je također predstavljeno kontrastno učenje koje poboljšava sposobnost modela nagrade da razlikuje odabrane od odbačenih odgovora. Poboljšavanjem modela nagrade u razlikovanju suptilnih razlika u uzorcima izvan distribucije, istraživači su mogli efikasnije prilagođavati i optimizirati proces RLHF-a koristeći meta-učenje.

Eksperimenti provedeni na skupovima podataka poput SFT, Anthropic-RLHF-HH, Reddit TL;DR, Oasst1 i PKU-SafeRLHF potvrdili su učinkovitost predloženih metoda. Ti skupovi podataka, koji uključuju razgovore, ljudske preferencije, sažetke i poticaje, doprinose snažnoj generalizaciji izvan distribucije. Dodatno, istraživači su pokazali da metode smanjenja šuma mogu pružiti stabilne rezultate na svim skupovima za validaciju, posebno pri odgovaranju na štetne poticaje.

Istraživanje RLHF-a u prijevodu pokazuje obećavajuće rezultate, ukazujući na potencijalna područja za daljnja istraživanja u ovom dinamičnom polju. Ključno područje za daljnju analizu je razvoj robusnijeg modela nagrade, budući da je relativno neistraženo kod jezičnih modela. Istraživači naglašavaju praktičnost studije, fokusirajući se na stjecanje uvida i razumijevanje usklađenosti, umjesto predlaganja inovativnih metoda.

Zaključno, razvoj novih metoda u RLHF-u otvara mogućnosti za usklađivanje jezičnih modela s ljudskim vrijednostima. Riješavanjem izazova vezanih uz modele nagrada i netočne preferencije, ovi napretci doprinose preciznijem i učinkovitijem učenju ojačanja na temelju povratnih informacija ljudi.

The source of the article is from the blog smartphonemagazine.nl

Web Story