Új megközelítés a nagy nyelvi modellek képzésében

Az mesterséges intelligencia jelentős előrelépéseket tett az utóbbi években a nagy nyelvi modellek (NNM) és a visszajelzéses megerősítéses tanulás (RLHF) fejlesztése révén. Azonban a NNM tanulási folyamatának optimalizálása emberi visszajelzés alapján továbbra is komoly kihívást jelent.

Hagyományosan a NNM képzés passzív felfedezést jelentett, ahol a modellek előre meghatározott promptok alapján generáltak válaszokat anélkül, hogy aktívan törekedtek volna a visszajelzés alapján történő fejlődésre. Ez a módszer sok interakciót igényelt, és nem volt hatékony a gyors modellek javítása szempontjából. Különféle felfedezési módszereket alkalmaztak, például Boltzmann-felfedezést és Infomaxot, de gyakran sok emberi interakcióra volt szükség a jelentős eredmények eléréséhez.

A Google Deepmind és a Stanford Egyetem kutatói most egy új megközelítést javasoltak az aktív felfedezés terén, a dupla Thompson mintavételt (TS) és az episztémás ideghálózatokat (ENN) bevonva a lekérdezések generálásába. Ez az aktív felfedezési módszer lehetővé teszi a modell számára az informatív visszajelzések aktív keresését, jelentősen csökkentve a magas teljesítményszint eléréséhez szükséges lekérdezések számát.

Kísérleteik során az ügynökök válaszokat generáltak 32 promptra, amelyeket egy preferencia szimulátor értékelt. Az értékelések visszajelzéseit az időszakok vége felé felhasználták a jutalommodellek finomítására. Az ENN segítségével a leginformatívabb párokat választották ki a jelöltek köre közül, így a modell hatékonyabban fedezte fel a válaszok terét.

Az eredmények azt mutatták, hogy a dupla Thompson mintavétel (TS) jobban teljesített más felfedezési módszereknél, mint például a Boltzmann-felfedezés és az infomax, különösen akkor, ha az ENN jutalommodelltől származó bizonytalansági becsléseket használták. Ez a megközelítés felgyorsította a tanulási folyamatot, és bemutatta az hatékony felfedezésben rejlő lehetőségeket az emberi visszajelzés mennyiségének csökkentése érdekében.

Ez a kutatás új lehetőségeket nyit meg gyors és hatékony modellelemzéshez, kihasználva az előrehaladott felfedezési algoritmusokat és bizonytalansági becsléseket. Rámutat az önálló tanulási folyamat optimalizálásának fontosságára az általános mesterséges intelligencia fejlesztése érdekében. Ezen fejleményekkel reményeink szerint hatékonyabb képzési módszerekkel és izgalmas mesterséges intelligencia alkalmazásokkal számolhatunk különböző területeken.

Gyakran feltett kérdések:

K: Mi a fő kihívás a nagy nyelvi modellek (NNM) tanulási folyamatának optimalizálásában az emberi visszajelzés alapján?
V: A fő kihívás az, hogy hatékonyan javítsuk a NNM-eket a visszajelzés alapján, mivel a hagyományos módszerek hatékonytalanok voltak és sok emberi interakciót igényeltek.

K: Mit jelent az aktív felfedezés a NNM-ek kontextusában?
V: Az aktív felfedezés olyan megközelítés, amelyben a NNM aktívan keresi az informatív visszajelzéseket a teljesítmény javítása érdekében, ahelyett, hogy passzív felfedezésre támaszkodna, ahol előre meghatározott promptok alapján generál válaszokat.

K: Mit jelent a dupla Thompson mintavétel (TS) és az epis

The source of the article is from the blog hashtagsroom.com