新的大型语言模型训练方法在高效探索中显示出潜力

人工智能在近年来取得了重大进展，这要归功于大型语言模型（LLM）的发展以及强化学习和人类反馈（RLHF）等技术。然而，通过人类反馈优化LLM的学习过程仍然是一个挑战。

传统上，训练LLM涉及被动探索，模型基于预先定义的提示生成响应，而不主动寻求改进的反馈。这种方法需要进行多次交互，并且在快速模型改进方面效率低下。已经使用了各种探索方法，例如Boltzmann探索和Infomax，但通常需要大量的人类交互才能产生明显的结果。

来自Google DeepMind和斯坦福大学的研究人员现在提出了一种新颖的主动探索方法，结合双重汤普森抽样（TS）和认知性神经网络（ENN）用于查询生成。这种主动探索方法使模型能够主动寻求信息反馈，显著减少了达到高性能水平所需的查询次数。

在实验中，代理生成对32个提示的响应，并由偏好模拟器进行评估。这些评估的反馈被用来在每个纪元结束时改进奖励模型。通过使用ENN从候选对中选择最信息丰富的对，该模型更有效地探索响应空间。

结果显示，双重汤普森抽样（TS）优于其他探索方法，如Boltzmann探索和Infomax，尤其是在利用ENN奖励模型中的不确定性估计时。这种方法加快了学习过程，并展示了高效探索降低所需人类反馈量的潜力。

该研究通过利用先进的探索算法和不确定性估计，为快速有效的模型增强打开了新的可能性。它强调了优化学习过程对于人工智能的广泛推进的重要性。借助这些进展，我们期待着在各个领域中更高效的大型语言模型训练方法和令人兴奋的人工智能应用。

常见问题部分:

问：通过人类反馈优化大型语言模型（LLM）的学习过程的主要挑战是什么？
答：主要挑战是找到一种有效的方法来根据反馈改进LLM，因为传统方法低效且需要大量的人类交互。

问：在LLM的背景下，什么是主动探索？
答：主动探索是一种方法，LLM主动寻求信息反馈以改善性能，而不是依靠被动探索，在被动探索中，LLM根据预先定义的提示生成响应。

问：什么是双重汤普森抽样（TS）和认知性神经网络（ENN）？
答：双重汤普森抽样（TS）和认知性神经网络（ENN）是提出的主动探索方法中使用的技术。双重汤普森抽样是一种用于平衡探索和开发的方法，而认知性神经网络用于查询生成，有效地探索响应空间。

问：研究人员如何评估LLM的性能？
答：代理生成对32个提示的响应，然后由偏好模拟器进行评估。这些评估的反馈被用来在每个纪元结束时改进奖励模型。

问：实验的结果如何？
答：实验结果显示，双重汤普森抽样（TS）优于其他探索方法，如Boltzmann探索和Infomax。使用ENN奖励模型的不确定性估计加快了学习过程并减少了所需的人类反馈量。

定义：

– 大型语言模型（LLMs）：用于处理和生成人类语言文本的先进模型。
– 通过人类反馈进行强化学习（RLHF）：一种利用人类反馈通过强化学习改善模型性能的技术。
– Boltzmann探索：通过对行为分配概率进行赋值来平衡探索和开发的一种方法。
– Infomax：在代理的环境中最大化信息内容的一种方法。

建议的相关链接：

– DeepMind：DeepMind是一个在该领域做出重大贡献的人工智能研究组织。
– 斯坦福大学：斯坦福大学是一所著名的学术机构，以在各个领域的研究和创新而闻名。

The source of the article is from the blog lanoticiadigital.com.ar