Ny tilgang til træning af store sprogmodeller viser lovende resultater inden for effektiv udforskning

Kunstig intelligens har gjort betydelige fremskridt i de seneste år, takket være udviklingen af store sprogmodeller (LLM’er) og teknikker som reinforcement learning fra menneskelig feedback (RLHF). Dog forbliver optimering af læringsprocessen for LLM’er gennem menneskelig feedback en udfordring.

Traditionelt set involverede træning af LLM’er passiv udforskning, hvor modellerne genererede svar baseret på foruddefinerede prompts uden aktivt at søge at forbedre sig baseret på feedback. Denne tilgang krævede mange interaktioner og viste sig ineffektiv til hurtig forbedring af modellen. Forskellige udforskningsmetoder som Boltzmann Exploration og Infomax er blevet anvendt, men de krævede ofte et stort antal menneskelige interaktioner for at opnå mærkbare resultater.

Forskere fra Google Deepmind og Stanford University har nu foreslået en ny tilgang til aktiv udforskning ved at inkludere double Thompson sampling (TS) og epistemiske neurale netværk (ENN) til forespørgselsgenerering. Denne aktive udforskningsmetode tillader modellen at aktivt søge informativ feedback, hvilket markant reducerer antallet af forespørgsler, der kræves for at opnå høje præstationsniveauer.

I deres eksperimenter genererede agenter svar til 32 prompts, som blev evalueret af en præference-simulator. Feedback fra disse evalueringer blev brugt til at forfine belønningsmodellerne ved slutningen af hver epoke. Ved at vælge de mest informative par fra en pulje af kandidater ved hjælp af ENN blev modellen mere effektiv til at udforske responsrummet.

Resultaterne viste, at double Thompson sampling (TS) præsterede bedre end andre udforskningsmetoder som Boltzmann exploration og infomax, især når man udnyttede usikkerhedsestimaterne fra ENN-belønningsmodellen. Denne tilgang accelererede læringsprocessen og viste potentialet for effektiv udforskning til at reducere mængden af menneskelig feedback, der kræves.

Denne forskning åbner nye muligheder for hurtig og effektiv forbedring af modeller ved at udnytte avancerede udforskningsalgoritmer og usikkerhedsestimater. Den understreger vigtigheden af at optimere læringsprocessen for at fremme kunstig intelligens generelt. Med disse fremskridt kan vi se frem til mere effektive træningsmetoder for store sprogmodeller samt spændende AI-applikationer inden for forskellige områder.

Ofte stillede spørgsmål:

Spørgsmål: Hvad er den største udfordring ved at optimere læringsprocessen for store sprogmodeller (LLM’er) gennem menneskelig feedback?
Svar: Den største udfordring er at finde en måde at forbedre LLM’er effektivt baseret på feedback, da traditionelle metoder har været ineffektive og krævede et stort antal menneskelige interaktioner.

Spørgsmål: Hvad er aktiv udforskning i sammenhæng med LLM’er?
Svar: Aktiv udforskning er en tilgang, hvor LLM’en aktivt søger informativ feedback for at forbedre sin præstation, i stedet for at stole på passiv udforskning, hvor den genererer svar baseret på foruddefinerede prompts.

Spørgsmål: Hvad er double Thompson sampling (TS) og epistemiske neurale netværk (ENN)?
Svar: Double Thompson sampling (TS) og epistemiske neurale netværk (ENN) er teknikker, der bruges i den foreslåede aktive udforskningsmetode. Double Thompson sampling er en metode til at afveje udforskning og udnyttelse, mens epistemiske neurale netværk bruges til forespørgselsgenerering for effektivt at udforske responsrummet.

Spørgsmål: Hvordan evaluerede forskerne LLM’ernes præstation?
Svar: Agenterne genererede svar til 32 prompts, som derefter blev evalueret af en præference-simulator. Feedback fra disse evalueringer blev brugt til at forfine belønningsmodellerne ved slutningen af hver epoke.

Spørgsmål: Hvad var resultaterne af eksperimenterne?
Svar: Eksperimenterne viste, at double Thompson sampling (TS) præsterede bedre end andre udforskningsmetoder som Boltzmann exploration og infomax. Brugen af usikkerhedsestimater fra ENN-belønningsmodellen accelererede læringsprocessen og reducerede mængden af menneskelig feedback, der var nødvendig.

Definitioner:

– Store sprogmodeller (LLM’er): Avancerede modeller, der bruges til at behandle og generere menneskelig sprogtekst.
– Reinforcement learning fra menneskelig feedback (RLHF): En teknik, der bruger menneskelig feedback til at forbedre modellernes præstation gennem reinforcement learning.
– Boltzmann Exploration: En metode, der afvejer udforskning og udnyttelse ved at tildele sandsynligheder til handlinger.
– Infomax: En metode, der maksimerer informationsindholdet i en agents miljø.

Foreslåede relaterede links:

– DeepMind: DeepMind er en AI-forskningsorganisation, der har bidraget betydeligt til feltet.
– Stanford University: Stanford University er en anerkendt akademisk institution kendt for sin forskning og innovation inden for forskellige områder.

The source of the article is from the blog trebujena.net