Jauni pieejas veidi cilvēka atsauksmēs balstītajā pastiprinātajā mācīšanā

Pētnieki no Fudanas NLP laboratorijas, Fudanas redzes un mācīšanās laboratorijas un Hikvision Inc. ir izstrādājuši jaunākas metodes, kas uzlabo pastiprināto mācīšanos cilvēka atsauksmju pamatā (PBMA). Ieviešot jaunus paņēmienus, lai risinātu nepareizas un nenoteiktas preferences datu kopās, šie pētnieki ir iezīmējuši ceļu tam, lai precīzāk uztvertu cilvēka nodomus.

Viena no būtiskākajām PBMA daļām ir atlīdzības modelis, kas darbojas kā galvenais mehānisms, lai iekļautu cilvēka preferences mācīšanās procesā. Tomēr atlīdzības modeļi, kas balstās uz konkrētām datu sadalījumiem, bieži mēdz ciest no grūtībām, lai generalizētu ārpus šiem sadalījumiem, kas traucē efektīvai PBMA apmācībai. Lai pārvarētu šo ierobežojumu, pētnieki ierosināja mērīt preferences stiprumu, izmantojot balsošanas mehānismu, kas iesaista vairākus atlīdzības modeļus. Šāda pieeja palīdz mazināt nepareizas un nenoteiktas preferences, uzlabojot atlīdzības modeļu kopumā generalizāciju.

Pētījumā arī iepazīstināja ar kontrastējošo mācīšanos, kas uzlabo atlīdzības modeļu spēju atšķirt izvēlētos atbildes no noraidītajiem. Kaut arī atlīdzības modelim ir jāuzlabo spēja noteikt nianses ārpus distribūcijas paraugiem, pētnieki varēja efektīvāk iterēt un optimizēt PBMA procesu, izmantojot metamācīšanos.

Eksperimenti, kas veikti ar datu kopām kā SFT, Anthropic-RLHF-HH, Reddit TL;DR, Oasst1 un PKU-SafeRLHF, apstiprināja ierosināto metožu efektivitāti. Šīs datu kopas, kas ietver sarunas, cilvēku preferenču datus, kopsavilkumus un pamudinājumus, veicināja izturīgu ārpus distribūcijas generalizāciju. Pētnieki arī demonstrēja, ka trokšņu mazināšanas metodes spēj nodrošināt stabilu veiktspēju visās validācijas kopās, īpaši reaģējot uz kaitīgiem pamudinājumiem.

Pastiprinātās mācīšanās pētījums tulkošanā ir parādījis cerīgus rezultātus, norādot uz iespējamām nākotnes pētījumu jomām šajā dinamiskajā lauciņā. Viens no svarīgiem turpmāko pētījumu virzieniem ir izturīga atlīdzības modela attīstība, jo tas joprojām ir relatīvi nepētīts valodu modelos. Pētnieki norāda uz pētījuma praktisko nozīmi, koncentrējoties uz ierosinājumiem un saprašanu, nevis uz inovatīvām metodēm.

Secinājumā RLHF jaunu metožu attīstība atver iespējas saskaņot valodu modeļus ar cilvēku vērtībām. Risinot atlīdzības modeļiem un nepareizām preferencēm saistītās problēmas, šie uzlabojumi veicina precīzāku un efektīvāku pastiprināto mācīšanos, pamatojoties uz cilvēka atsauksmēm.

The source of the article is from the blog mgz.com.tw