创新的人工智能训练方法模仿人类好奇心，避免有毒反应

在对更安全的人工智能（AI）进行不懈追求的过程中，麻省理工学院的研究人员通过一种新的训练技术取得了突破，该技术模仿了人类的好奇心。这种方法挑战AI模型生成比人类团队更多样化的潜在有害输入。这种名为“好奇心驱动的红队”（CRT）的技术旨在改善像ChatGPT这样的大型语言模型（LLMs），确保它们不会向用户查询提供有毒的响应。

训练包括设置一个AI自动创建一系列更大更多样化的消息，这些消息可能引发另一个AI中的有害内容。通过采用强化学习，CRT模型会在每次它引发LLM的有害响应时受到奖励。

CRT背后的主要概念是增强AI生成广泛的测试用例的能力 —— 超出人类红队小组可能预料到的范围。这有助于防止部署的聊天机器人在公共互动期间向不寻常或被忽视的提示提供不当响应。

之前的技术在很大程度上依赖于构建潜在提示列表的人类团队；然而，这种手动方法存在局限性，因为人类的想象力是有限的。认识到这一局限性，CRT系统被设计为根据每次测试的结果不断制定新的提示，涉足未尝试的单词、短语或含义组合。

通过这些进展，麻省理工学院的研究人员旨在确保随着AI模型更多地整合到日常生活中，它们会接受彻底的审查以供公共使用，使我们与这些智能系统的互动更加安全和可靠。

挑战和争议:
AI训练中的一个挑战是确保模型不会加强或传播偏见和有害行为。传统数据集往往包含偏见，这些偏见可能被AI无意中学习。确保AI系统没有这些偏见是一个重大的持续挑战。

争议围绕AI决策过程的不透明性以及透明性的需要而产生。随着AI模型的复杂性不断增加，即使对于它们的创建者来说，理解特定响应是如何产生的也变得更加困难。这种“黑匣子”问题在确保AI行为符合道德规范方面带来困难。

优势:
好奇心驱动的红队（CRT）的主要优势是更强大、更灵活的AI。能够预见和应对更广泛的潜在有害输出对于保持用户信任和安全至关重要。此外，这种自动化方法可以发现比手动测试更多的潜在问题，增强系统的可靠性。

劣势:
CRT的一个潜在劣势可能是运行这样复杂的训练协议的复杂性和计算开销。另外，如果没有恰当校准，CRT可能导致过拟合 —— 即AI在训练数据上表现出色，但在新的未见提示上却无法泛化。

有用链接:
有关AI开发和研究的更多信息，您可能会对以下领域感兴趣：
– 麻省理工学院（MIT）这里进行了好奇心驱动的红队研究。
– LLaMA: Facebook Research的开源库关于提到的LLM之一的一些见解。

重要问题:
– 相较于其他方法，好奇心驱动的红队（CRT）对减少有害响应的效果如何？
– CRT能够适应大型语言模型之外的不同类型的AI吗？
– 有什么措施确保CRT不会无意中创造自己形式的偏见？
– CRT将如何随着未来更复杂的AI模型扩展？

该文章阐述了一种新的AI训练方法，模拟人类好奇心，旨在通过严格针对更广泛的潜在有害输入测试AI系统，使AI与人类的互动更加安全。这种“好奇心驱动的红队”可能代表AI发展中的一项重大创新，承诺通过对AI系统进行更广泛的测试，改进AI-人类互动的安全性。

The source of the article is from the blog elblog.pl