人工智能学习的未来:开创性合成数据技术

聊天机器人提供的智能回复背后有一个庞大的数据库,通常包括来自文章、书籍和在线评论的数万亿字,用于训练 AI 系统以理解用户的查询。在这一行业中普遍认为,积累尽可能多的信息是下一代 AI 产品发展的关键。

然而,这种方法面临着一个重大挑战:只有一定数量的高质量数据可以在网上获取。为了获取这些数据,AI 公司通常向出版商支付数百万美元获取内容许可或从网站收集信息,由此面临版权侵权诉讼的风险。

领先的 AI 公司正在探索 AI 社区内一种备受争议的替代方法:使用合成或实质上是 ‘假’ 数据。例如,技术企业正在通过他们的 AI 系统生成文本和媒体。然后使用这些人工数据来训练这些 AI 系统的未来迭代,Anthropic 的 CEO Dario Amodei 将这种方法描述为潜在的“无限数据生成工具”。这种方法允许 AI 公司规避大量的法律、道德和隐私问题。

计算机中的合成数据并不新颖 – 几十年来一直被用于各种目的,包括匿名化个人信息和模拟自动驾驶技术的驾驶条件。然而,AI 生成的进步已经促使更高质量的合成数据大规模生产,加快了其实施的迫切性。

生成型 AI 主要旨在创建新信息,它通过机器学习和深度学习等过程产生数据、文本、图像、声音、视频等。一个突出的例子是 OpenAI 的 GPT 模型,能够根据其先前的训练数据生成新文本。

Anthropic 向彭博社报告称,他们已经使用合成数据构建了支持其聊天机器人 Claude 的最新模型。Meta 平台和谷歌也在开发其最新开源模型时实施了合成数据。

微软的 AI 研究团队尝试通过从一个四岁儿童可能理解的 3,000 个单词列表中创建儿童故事来模拟儿童学习语言的过程,从而产生了数百万篇短篇故事,加强了 AI 语言模型的能力。这项研究导致了一个紧凑且开源的语言模型 Phi-3 的开发,可供公开使用。

微软的 AI 副总裁 Sébastien Bubeck 指出,合成数据使模型学习过程更易控制,可以提供详细的指导,否则可能难以实现。然而,专家对这种技术的风险表示担忧,并警告可能存在的 ‘模型崩溃’,这一观点得到牛津和剑桥等著名大学的研究支持。

最重要的问题及其答案:

1. 什么是合成数据?
合成数据是通过算法和模拟生成的人工信息,用作真实数据的替代品。它可以采取文本、图像、声音、视频等形式。

2. 合成数据对 AI 学习的未来为何重要?
合成数据之所以重要,是因为它为 AI 提供了“无限”的训练材料,而不会涉及与获取真实数据相关的法律、伦理和隐私问题。

3. 使用合成数据在 AI 中所面临的主要挑战是什么?
主要挑战之一是确保合成数据具有高质量,并准确地呈现真实情况的多样性和复杂性。而且还存在 ‘模型崩溃’ 的风险,即 AI 开始生成同质性或无意义的输出。

争议:

道德影响: 一些人担心,合成数据可能会放大偏见或导致制造用于误导信息的深伪技术。
真实性担忧: 有人争论说,完全在合成数据上训练的 AI 是否能实现与从真实数据中得出的真实理解和背景认知等效的问题。

优势:

法律和伦理优点: 避免了与数据抓取和版权侵权相关的潜在法律问题。
可控性: 允许设计者指定和控制数据的情境和参数,从而有望获得更好的训练成果。
可扩展性: 可以快速生成大量数据,成本较低,相较于获取真实世界数据而言更加经济。

劣势:

质量保证: 确保合成数据足够代表性以训练有效的 AI 模型是具有挑战性的。
过度拟合风险: 有风险的是,训练于合成数据的 AI 模型可能无法在真实世界数据上表现良好,因为对人工数据集进行了过度拟合。
复杂性: 创建高质量的合成数据可能是复杂且耗费资源的。

建议的相关链接:

– 要了解 AI 和机器学习的概况,请访问 OpenAI
– 想了解生成 AI 在创建合成数据中的作用,请访问 DeepMind
– 想获得关于人工智能道德使用的信息,请访问 Partnership on AI

生成型 AI 和合成数据技术继续发展,推动了 AI 学习的可能性边界,并打开了可以塑造未来技术的新可能性。

Privacy policy
Contact