Uus lähenemine suurte keelemudelite koolitamisel näitab tõhusat uurimistööd

Kunstlik intelligents on tänu suurte keelemudelite (LLM) ja meetodite nagu inimtagasiside alusel tugevdatud õpe (RLHF) tehtud märkimisväärseid edusamme viimastel aastatel. Siiski on LLMide õppimisprotsessi optimeerimine inimtagasiside kaudu väljakutse.

Traditsiooniliselt hõlmas LLMide koolitamine passiivset uurimistööd, kus mudelid genereerisid vastuseid eelnevalt määratletud stiimulite põhjal, ilma et nad aktiivselt püüaksid end tagasiside põhjal täiustada. See lähenemisviis nõudis palju suhtlemist ja osutus kiireks mudelite täiustamiseks ebaefektiivseks. On kasutatud erinevaid uurimistöö meetodeid, nagu Boltzmann Exploration ja Infomax, kuid sageli oli vaja suurt hulka iniminteraktsioone, et saavutada märgatavaid tulemusi.

Google Deepmind’i ja Stanfordi ülikooli teadlased on nüüd välja pakkunud uudse lähenemisviisi aktiivse uurimistöö jaoks, kaasates topeltsellise Thompsoni valimi (TS) ja episteemilised närvivõrgud (ENN) päringute genereerimiseks. See aktiivne uurimismeetod võimaldab mudelil aktiivselt otsida informatiivset tagasisidet, vähendades märkimisväärselt nõutavate päringute arvu kõrge jõudluse saavutamiseks.

Oma eksperimentides genereerisid agendid 32 stiimulile vastuseid, mida hindas eelistusesimulaator. Nende hindamiste tagasisidet kasutati tasu mudelite täiendamiseks igas epohis. ENN-i kasutades valiti informatiivseimad paarid kandidaatide hulgast välja, võimaldades mudelil reageerimisruumi tõhusamalt uurida.

Tulemused näitasid, et topeltsellise Thompsoni valimi (TS) kasutamine ületas teisi uurimismeetodeid, näiteks Boltzmanni uurimistööd ja infomaxi, eriti kasutades ENN-i tasu mudelist tulenevaid ebakindluse hinnanguid. See lähenemisviis kiirendas õppeprotsessi ja näitas tõhusa uurimise potentsiaali inimtagasiside mahtu vähendada.

See uurimus avab uusi võimalusi kiireks ja tõhusaks mudelite täiustamiseks, kasutades arenenud uurimisalgoritme ja ebakindluse hindamisi. See rõhutab õppeprotsessi optimeerimise olulisust üldise kunstliku intelligentsuse edendamise kontekstis. Nende edusammude abil saame oodata tõhusamaid koolitusmeetodeid suurte keelemudelite ja põnevaid tehisintellekti rakendusi erinevates valdkondades.

KKK sektsioon:

K: Mis on suurte keelemudelite (LLM) õppeprotsessi optimeerimise peamine väljakutse inimtagasiside kaudu?
V: Peamine väljakutse seisneb selles, kuidas suurendada LLMide jõudlust efektiivsel viisil tagasiside põhjal, kuna traditsioonilised meetodid on olnud ebaefektiivsed ja nõudnud suurt hulka iniminteraktsioone.

K: Mis on aktiivne uurimine LLMide kontekstis?
V: Aktiivne uurimine on lähenemisviis, kus LLM otsib aktiivselt informatiivset tagasisidet oma jõudluse parandamiseks, mitte tuginedes passiivsele uurimisele, kus ta genereerib vastuseid eelnevalt määratletud stiimulite põhjal.

K: Mis on topeltsellise Thompsoni valim (TS) ja episteemilised närvivõrgud (ENN)?
V: Topeltselline Thompsoni valim (TS) ja episteemilised närvivõrgud (ENN) on tehnikad, mida kasutatakse aktiivse uurimise meetodis. Topeltselline Thompsoni valim on meetod tasakaalu leidmiseks uurimise ja ärakasutamise vahel, samas kui episteemilised närvivõrgud kasutavad päringute genereerimiseks vastuse ruumi tõhusat uurimist.

K: Kuidas teadlased hindasid LLMide jõudlust?
V: Agendid genereerisid vastused 32 stiimulile, mida seejärel hindas eelistusesimulaator. Nende hindamiste tagasisidet kasutati tasu mudelite täiendamiseks igas epohis.

K: Millised olid eksperimentide tulemused?
V: Eksperimentid näitasid, et topeltsellise Thompsoni valim (TS) ületas teisi uurimismeetodeid, nagu Boltzmanni uurimine ja infomax. ENN-i tasu mudelist tulenevate ebakindluse hinnangute kasutamine kiirendas õppeprotsessi ja vähendas vajalikku inimtagasiside hulka.

Määratlused:

– Suured keelemudelid (LLM): Täpsemad mudelid, mida kasutatakse inimkeele teksti töötlemiseks ja genereerimiseks.
– Reinforcement learning from human feedback (RLHF): Tehnika, mis kasutab inimtagasisidet mudelite jõudluse parandamiseks tugevdatud õppe kaudu.
– Boltzmanni uurimine: Meetod, mis tasakaalustab uurimist ja ärakasutamist, määrates tegevustele tõenäosused.
– Infomax: Meetod, mis maksimeerib agendi keskkonna teabe sisu.

Soovitatud seotud lingid:

– DeepMind: DeepMind on AI-uurimisorganisatsioon, mis on teinud olulisi panuseid valdkonda.
– Stanfordi ülikool: Stanfordi ülikool on tuntud akadeemiline asutus, millel on mitmesugustes valdkondades tuntud teadus- ja innovatsioonitegevus.

The source of the article is from the blog oinegro.com.br