人类反馈增强学习的新方法

复旦大学NLP实验室、复旦视觉与学习实验室和海康威视公司的研究人员开发出了一种创新技术，可以增强人类反馈的强化学习（RLHF）。通过引入新方法来解决数据集中的错误和模糊偏好，这些研究人员为更准确地捕捉人类意图铺平了道路。

RLHF的一个关键方面是奖励模型，它作为将人类偏好纳入学习过程的主要机制。然而，基于特定数据分布的奖励模型往往难以在这些分布之外进行泛化，从而阻碍了有效的RLHF训练。为了克服这个限制，研究人员提出了通过涉及多个奖励模型的投票机制来衡量偏好强度的方法。这种方法有助于减轻错误和模糊偏好，提高奖励模型的整体泛化能力。

研究还引入了对比学习，增强奖励模型区分选定响应和被拒绝响应的能力。通过改进奖励模型对样本中超出分布的微小差异的识别能力，研究人员能够使用元学习更有效地迭代和优化RLHF过程。

在SFT、Anthropic-RLHF-HH、Reddit TL;DR、Oasst1和PKU-SafeRLHF等数据集上进行的实验证实了所提方法的有效性。这些数据集包括对话、人类偏好数据、摘要和提示，为强大的超出分布泛化做出了贡献。此外，研究人员还证明了去噪方法能够在所有验证集中提供稳定的性能，特别是在应对有害提示时。

在翻译领域探索RLHF的研究显示了有希望的结果，表明了未来研究的潜在方向。进一步研究的一个关键领域是开发一个更强大的奖励模型，因为语言模型中的奖励模型相对较少被探索。研究人员强调了这项研究的实用性，关注洞察和理解对齐，而不是提出创新方法。

总之，RLHF中新方法的发展为将语言模型与人类价值观保持一致开辟了机会。通过解决与奖励模型和错误偏好相关的挑战，这些进展为从人类反馈中更准确、更有效地进行强化学习做出了贡献。

The source of the article is from the blog aovotice.cz