Umelá inteligencia v posledných rokoch zaznamenala významný pokrok vďaka rozvoju veľkých jazykových modelov (LLMs) a technikám ako učenie sa zpětnou väzbou od ľudí (RLHF). Avšak optimalizácia procesu učenia LLMs na základe ľudskej spätnej väzby zostáva výzvou.
Tradične, tréning LLMs zahŕňal pasívne preskúmanie, kde modely generovali odpovede na základe preddefinovaných podnetov bez aktívneho snahy o zlepšenie na základe spätnej väzby.… Read the rest