Artificiell intelligens har gjort betydande framsteg på senare år tack vare utvecklingen av stora språkmodeller (LLM) och tekniker som förstärkningsinlärning från mänsklig feedback (RLHF). Men att optimera inlärningsprocessen för LLM genom mänsklig feedback är fortfarande en utmaning.
Traditionellt har träning av LLM inneburit passiv utforskning, där modeller genererade svar baserat på fördefinierade prompter utan aktivt söka förbättringar baserat på feedback.… Read the rest