Kunstig intelligens har gjort betydelige fremskridt i de seneste år, takket være udviklingen af store sprogmodeller (LLM’er) og teknikker som reinforcement learning fra menneskelig feedback (RLHF). Dog forbliver optimering af læringsprocessen for LLM’er gennem menneskelig feedback en udfordring.
Traditionelt set involverede træning af LLM’er passiv udforskning, hvor modellerne genererede svar baseret på foruddefinerede prompts uden aktivt at søge at forbedre sig baseret på feedback.… Read the rest