Nov način za razširitev dolžine konteksta v velikih jezikovnih modelih

Raziskovalci so odkrili težavo pri velikih jezikovnih modelih (LLM) in njihovi sposobnosti obvladovanja dolgih kontekstov zaradi omejene dolžine okna. Čeprav lahko fino prilagajanje razširi dolžino konteksta, to zahteva pomembne stroške v smislu usposabljanja in časa sklepanja. To negativno vpliva na osnovne sposobnosti LLM.

V skladu s tem je skupina raziskovalcev iz Peking Akademije za umetno inteligenco, Gaoling School of Artificial Intelligence in Renmin University of China predlagala nov način, imenovan Activation Beacon. Ta metoda si prizadeva razširiti dolžino konteksta predhodno usposobljenih LLM-jev, ne da bi pri tem ogrozila obstoječe sposobnosti.

Activation Beacon deluje tako, da stisne neposredne aktivacije LLM-jev z minimalno izgubo informacij. Ta stisnjena oblika omogoča LLM-ju, da zajame širši kontekst v kratkem oknu. Uporablja posebne simbole, imenovane boksi, za dosego tega stisnjenega razmerja. Boksi uporabljajo tri sheme pozornosti, pri čemer je postopno širjenje najbolj učinkovito. Z združevanjem stisnjenih in neposrednih aktivacij v drsna okna Activation Beacon učinkovito napoveduje naslednji simbol, kar omogoča LLM-ju obdelavo dolgih kontekstov, ne da bi ogrozil sposobnost obdelave krajših kontekstov.

Eksperimentalni rezultati so pokazali, da Activation Beacon prekaša obstoječe metode za razširitev dolžine konteksta v LLM-jih. Dosega primerljive ali celo boljše rezultate od fino prilagojenih metod s polno pozornostjo, pri čemer ohranja višjo učinkovitost. Activation Beacon je bil preizkušen pri različnih nalogah in kaže svojo učinkovitost v raznolikih uporabah v resničnem svetu.

Skupno gledano Activation Beacon zagotavlja nizkocenovno in učinkovito rešitev za razširitev dolžine konteksta LLM-jev. Ta nov način ima potencial, da bistveno izboljša sposobnosti velikih jezikovnih modelov in jim omogoči učinkovito obvladovanje daljših kontekstov. Nadaljnje raziskave in razvoj na tem področju bi lahko privedli do pomembnih napredkov pri obdelavi in razumevanju naravnega jezika.

The source of the article is from the blog guambia.com.uy

Web Story

Privacy policy
Contact