Jauna tehnika atklāj lielu valodu modeļu potenciālu

Komanda pētnieku laukā, kas saistīts ar dabiskās valodas apstrādi (DVA), ir panākusi pārmaiņas, ieviešot jaunu pēctošā apmācīšanas tehniku Lielām Valodu Modeļiem (LVM). Šī jaunā tehnika, kas saukta par bloka paplašināšanu, ļauj iekļaut konkrētas jomas zināšanas, nemazinot modeļu kopējās spējas.

LVM galvenā problēma ir tā, ka, lai gan tās izceļas dažādās uzdevumos, tās sniegums ir ierobežots programmēšanas, matemātikas, biomedicīnas zinātnes un finanšu jomās. Pašreizējā jomas pielāgoto priekšapmācīšanās metode uzlabo modeļus, bet tās rezultātā tiek izraisīts katastrofāls aizmiršanums, kas noved pie modeļa vispārējo spēju pasliktināšanās.

Lai pārvarētu šo ierobežojumu, pētnieki ierosināja bloka paplašināšanas metodi, kas ietver Transformer bloku paplašināšanu LVM. Pievienojot dublētus Transformer blokus, jomaspecifiska informācija var tikt efektīvi integrēta iepriekšapmācītajos modeļos. Esošie bloki paliek nemainīgi, bet jaunpievienotie bloki tiek sinhronizēti, izmantojot jomaspecifiskus korpusus.

Šī tehnika nodrošina, ka modelis saglabā savas vispārējās spējas, bet vienlaikus iegūst arī attiecīgās jomas svarīgo informāciju. Pētnieki demonstrēja bloka paplašināšanas efektivitāti, izstrādājot LLAMA PRO-8.3B modeli, kas veido ļoti labus rezultātus gan vispārējos uzdevumos, gan programmēšanā un matemātikā.

LLAMA PRO ģimene, ieskaitot instrukciju sekošanas variantu LLAMA PRO – INSTRUCT, demonstrēja labāku sniegumu salīdzinājumā ar esošajiem modeļiem LLaMA ģimenē. Šie modeļi parādīja lielu potenciālu izdoties loģiskās domāšanas un dažādu uzdevumu risināšanā kā inteliģentie aģenti.

Šī pētījuma galvenie ieguldījumi ietver bloka paplašināšanas metodes ieviešanu LVM, kas ļauj iekļaut jaunu informāciju, nemazinot esošās spējas. Papildus tam, elastīgie LLAMA PRO modeļi bez problēmām apvieno programmēšanas un dabiskās valodas iezīmes, izceļot gan vispārējos, gan jomaspecifiskos uzdevumus.

Pētnieki rūpīgi izvērtēja LLAMA PRO ģimenes sniegumu dažādos datu kopos, demonstrējot tās pielāgojamību un potenciālu sarežģītu lietotņu apstrādē. Šī pētījuma rezultātā tiek sniegti vērtīgi atziņas par programmēšanas un dabiskās valodas mijiedarbību un tiek izveidots ceļš, lai attīstītu vēl elastīgākus un spēcīgākus valodu modeļus.

Secinājumā bloka paplašināšanas tehnika revolucionizē LVM spējas, ļaujot tai kļūt par spēcīgiem valodas aģentiem, kas efektīvi darbojas dažādās jomās. Šīs pētniecības atklājumi uzsvēra svarību pārvarēt LVM ierobežojumus un atvērt aizraujošas iespējas nākotnes dabiskās valodas apstrādes jomā.

The source of the article is from the blog dk1250.com