Nový přístup k trénování velkých jazykových modelů ukazuje slib v efektivním průzkumu

Umělá inteligence v posledních letech zaznamenala významný pokrok díky vývoji velkých jazykových modelů (LLMs) a technikám jako je posilovací učení z lidského zpětného vazby (RLHF). Nicméně optimalizace procesu učení LLMs prostřednictvím lidské zpětné vazby zůstává výzvou.

Tradičně se trénování LLMs zabývalo pasivním průzkumem, kde modely generovaly odpovědi na základě předdefinovaných podnětů bez aktivního hledání zlepšení na základě zpětné vazby. Tento přístup vyžadoval mnoho interakcí a pro rychlé zlepšení modelu se ukázal jako neefektivní. Byly využívány různé metody průzkumu, jako je Boltzmannův průzkum a Infomax, avšak často vyžadovaly velké množství lidských interakcí k dosažení zřetelných výsledků.

Výzkumníci z Google Deepmind a Stanford University nyní představili nový přístup aktivního průzkumu, který zahrnuje dvojitý Thompsonův vzorek (TS) a epistemické neuronové sítě (ENN) pro generování dotazů. Tento aktivní průzkumný způsob umožňuje modelu aktivně vyhledávat informativní zpětnou vazbu, čímž výrazně snižuje počet dotazů potřebných k dosažení vysoké úrovně výkonu.

V experimentech agenty vygenerovaly odpovědi na 32 podnětů, které byly vyhodnoceny simulátorem preference. Zpětná vazba z těchto hodnocení byla použita k vylepšení modelů odměn na konci každé epochy. Výběrem nejinformativnějších dvojic z kandidátského seznamu pomocí ENN modelu model lépe prozkoumal prostor odezvy.

Výsledky ukázaly, že dvojitý Thompsonův vzorek (TS) předčil ostatní metody průzkumu, jako je Boltzmannův průzkum a Infomax, zejména při využití odhadů nejistoty z ENN modelu odměn. Tento přístup urychlil proces učení a prokázal potenciál efektivního průzkumu ke snížení množství potřebné zpětné vazby od lidí.

Tato výzkumná práce otevírá nové možnosti pro rychlé a účinné zlepšování modelu prostřednictvím pokročilých algoritmů průzkumu a odhadů nejistoty. Zdůrazňuje důležitost optimalizace procesu učení pro širší pokrok v umělé inteligenci. Díky těmto inovacím se můžeme těšit na efektivnější tréninkové metody pro velké jazykové modely a vzrušující aplikace AI v různých oblastech.

Často kladené otázky:

The source of the article is from the blog scimag.news

Privacy policy
Contact