自我对弈提升大型语言模型性能的方法

加利福尼亚大学洛杉矶分校的研究人员开发了一种突破性的方法，可以增强弱大型语言模型（LLM）的性能，而无需额外的人工标注数据。这种名为自我对弈微调（SPIN）的新颖技术，让LLM能够进行自我对弈，通过对抗自己的回答来提高对自然语言的理解能力。

以往解决这个问题的方法包括使用合成数据与二进制反馈，或者使用弱模型来引导更强的模型。然而，SPIN提供了一种更高效的解决方案，消除了对人工二进制反馈的要求，并且仅需一个LLM即可有效运作。

SPIN过程可以看作是一个双人游戏。第一个模型生成与人工标注数据集非常相似的回答，而第二个模型则试图区分第一个模型生成的回答和人类生成的回答。第二个模型经过微调以更倾向于目标数据集中的回答，而不是第一个模型生成的回答。这个迭代过程一直持续到LLM无法区分自己生成的回答和人类生成的回答为止。

为了说明SPIN的有效性，研究人员进行了一个实验，其中一台LLM被提示列出南安普敦市流行的交通方式。刚开始时，模型提供了不准确的回答。然而，随着迭代的进行，模型改善了性能，并提供了更接近真实情况的答案。

研究人员在评估中使用了zephyr-7b-sft-full模型，该模型基于预先训练的Mistral-7B进行微调，并在SFT数据集上进一步微调。结果显示，SPIN在第一次迭代中使模型的平均得分提高了2.66%，在随后的迭代中又额外提高了1.32%。

SPIN有潜力将弱LLM转变为强LLM，而无需人工标注者。通过利用自我对弈机制，该框架显著提升了在SFT数据集上微调模型的性能。尽管他们的方法存在一些限制，但研究人员提出了未来可以通过动态改变目标数据分布来解决这个问题。

这项研究对于最大限度发挥LLM在自然语言处理中的能力，以及为其在各个领域的应用带来令人兴奋的可能性迈出了重要一步。

The source of the article is from the blog shakirabrasil.info