Új módszer a nagy nyelvi modellek kontextushosszának növelésére

Kutatók azonosítottak egy problémát a nagy nyelvi modellek (NNM-ek) és képességük közös hosszú kontextusok kezelésére vonatkozóan, ami a korlátozott ablakhossz miatt merül fel. Bár a finomhangolással lehet növelni a kontextusablak hosszát, az edzés- és következtetési idő tekintetében jelentős költséggel jár. Ez negatív hatással van a NNM-ek alapvető képességeire.

A probléma megoldása érdekében a Kínai Mesterséges Intelligencia Akadémia, a Pekingi Gaoling Mesterséges Intelligencia Iskola és a Kínai Renmin Egyetem kutatói csapata egy új módszert, az Aktivációs Jelzőt javasolták. Ez a módszer azt célozza, hogy kibővítse a már előzetesen képzett NNM-ek kontextushosszát anélkül, hogy veszélyeztetné a meglévő képességeiket.

Az Aktivációs Jelző abból áll, hogy minimalizálja az NNM nyers aktivitását a minimális információveszteség mellett. Ez a sűrített forma lehetővé teszi az NNM számára, hogy egy szűkebb ablakon belül szélesebb kontextust értse meg. Ehhez különleges jelzőtoként használ szerepet betöltő jelzőket használ. Ez a jelző három figyelmességi séma segítségével működik, a fokozatos bővítés a leghatékonyabb. A sűrített és nyers aktivitás kombinálása csúszó ablakokban lehetővé teszi az Aktivációs Jelzőnek, hogy hatékonyan megjósolja a következő tokent, lehetővé téve az NNM-nek a hosszú kontextualitás feldolgozását anélkül, hogy feladná a képességét a rövidebb kontextusok feldolgozására.

Kísérleti eredmények azt mutatják, hogy az Aktivációs Jelző a létező módszerekhez képest jobb eredményt nyújt a NNM-ek kontextushosszában történő növelésében. Hasonló vagy jobb teljesítményt ér el a finomhangolt teljes figyelmet igénylő módszerekhez képest, miközben magasabb hatékonysággal rendelkezik. Az Aktivációs Jelzőt számos feladaton tesztelték, és hatékonyságát változatos valódi világbeli alkalmazásokban mutatta be.

Összességében az Aktivációs Jelző egy alacsony költségű és hatékony megoldást nyújt a NNM-ek kontextushosszának növelésére. Ez az új módszer jelentősen fokozhatja a nagy nyelvi modellek képességeit, és lehetővé teszi számukra a hosszabb kontextusok hatékony kezelését. További kutatás és fejlesztés ezen a területen jelentős előrelépéseket eredményezhet a természetes nyelvfeldolgozás és megértés terén.

The source of the article is from the blog exofeed.nl