Novi način produžavanja duljine konteksta u velikim jezičkim modelima

Istraživači su identificirali problem s velikim jezičkim modelima (LLM) i njihovom sposobnošću obrade dugih konteksta zbog njihove ograničene duljine prozora. Iako fino podešavanje može produžiti duljinu prozora konteksta, dolazi po značajnoj cijeni u pogledu vremena obuke i zaključivanja. To ima negativan utjecaj na osnovne sposobnosti LLM-a.

Da bi riješili taj problem, tim istraživača iz Pekinške akademije umjetne inteligencije, Pekinške škole umjetne inteligencije i Renmin sveučilišta u Kini predložio je novi metod nazvan Activation Beacon. Ovaj metod ima za cilj produžiti duljinu konteksta prethodno obučenih LLM-a bez narušavanja njihovih postojećih sposobnosti.

Activation Beacon radi tako da kondenzira sirove aktivacije LLM-a s minimalnim gubitkom informacija. Ovaj kondenzirani oblik omogućava LLM-u da shvati širi kontekst unutar kratkog prozora. Koristi posebne oznake nazvane beacons kako bi postigao taj omjer kondenzacije. Beacons koriste tri sheme pažnje, pri čemu je postupno proširenje najučinkovitije. Kombinirajući kondenzirane i sirove aktivacije u kliznim prozorima, Activation Beacon efikasno predviđa sljedeći token, omogućavajući LLM-u obradu dugih kontekstualnih informacija bez žrtvovanja sposobnosti za obradu kraćih konteksta.

Eksperimentalni rezultati su pokazali da Activation Beacon nadmašuje postojeće metode za produživanje duljine konteksta u LLM-ima. Postiže usporediv ili superiornu učinkovitost u odnosu na fine-tuned metode s potpunom pažnjom, uz održavanje veće efikasnosti. Activation Beacon je testiran na različitim zadacima i pokazuje svoju učinkovitost u raznim stvarnim primjenama.

Sveukupno, Activation Beacon pruža jeftino i učinkovito rješenje za produživanje duljine konteksta u LLM-ima. Ovaj novi metod ima potencijal da značajno poboljša sposobnosti velikih jezičkih modela i omogući im učinkovito rukovanje duljim kontekstima. Dodatna istraživanja i razvoj na ovom području mogli bi dovesti do značajnih napretka u obradi i razumijevanju prirodnog jezika.

The source of the article is from the blog cheap-sound.com

Web Story