探索AI训练潜力，无需侵犯版权

人工智能（AI）模型长期以来一直使用受版权保护的材料进行训练，但最近的发展表明有替代方法可以在不侵犯知识产权的情况下训练这些模型。一组得到法国政府支持的研究人员发布了一组由全文公共领域文本组成的重要AI训练数据集。这一开创性数据集提供了证据，表明大型语言模型可以在不需要无版权许可的情况下进行训练。

非营利组织Fairly Trained还宣布成功认证了其首个大型语言模型KL3M。这个模型由一家名为273 Ventures的芝加哥法律科技咨询初创公司开发，使用了一个由法律、金融和监管文件组成的精心策划的训练数据集。通过遵守版权法并利用自己的数据集，273 Ventures证明了可以构建大型语言模型而不涉及版权侵犯的争议问题。

根据273 Ventures的联合创始人吉利安·博马里托（Jillian Bommarito）表示，他们决定使用自己的数据集来训练KL3M是由于他们在法律行业的风险规避客户的需求。这些客户担心数据的来源，并希望确保他们的AI模型不是基于有争议的或受版权保护的数据。博马里托强调，模型的规模并不需要过于庞大，高质量的数据可以带来更好的性能和专业化。

尽管像KL3M这样的数据集目前在规模上比不上像OpenAI这样的行业巨头编制的数据集，但未来有希望。研究人员最近发布了Common Corpus，他们声称这是目前最大的可用于语言模型的AI数据集，完全由公共领域内容组成。该数据集发布在开源AI平台Hugging Face上，包含了由美国国会图书馆和法国国家图书馆等机构数字化的公共领域报纸的文本。Common Corpus旨在为研究人员和初创公司提供一个经过审核的训练集，不受版权问题的影响。

虽然由公共领域内容组成的数据集存在诸如过时信息等限制，但它们为训练大型语言模型提供了一项宝贵的资源。像Common Corpus和KL3M这样的项目展示了AI社区对无需许可数据爬取的争论持有的日益怀疑态度。事实上，Fairly Trained最近认证了其首家提供AI语音模型的公司，显示出业界越来越倾向于获取适当许可并尊重知识产权的趋势。

常见问题解答（FAQ）

1. 什么是Fairly Trained？
Fairly Trained是一家非营利组织，为可以证明其对AI模型进行训练的公司提供认证，这些公司拥有自己拥有、已获得许可或是属于公共领域的数据。Fairly Trained的目标是鼓励在AI开发中采用公平和道德的做法。

2. KL3M与其他大型语言模型有何不同？
KL3M之所以独特，是因为它是使用符合版权法的法律、金融和监管文件的精心策划数据集进行训练的。与其他模型不同，KL3M避免了版权侵犯问题，并提供权威可靠的结果，使其成为法律行业客户的理想选择。

3. 什么是Common Corpus数据集？
Common Corpus是一个由公共领域内容构建的AI数据集，例如来自美国国会图书馆和法国国家图书馆等机构数字化的报纸。它旨在为研究人员和初创公司提供一个经过审核的训练集，免受版权问题的影响，尽管可能不包含最新的信息。

4. 为什么越来越多的AI领域倾向于进行许可证处理？
随着AI技术的进步和日益成熟，对尊重知识产权的意识与日俱增。许多组织，包括作者协会和SAG-AFTRA，支持Fairly Trained推广在AI开发中采纳公平许可实践的使命。

人工智能（AI）模型近年来取得了重大进展，但在训练这些模型时面临的挑战之一是使用受版权保护的材料。然而，现在出现了可以在不侵犯知识产权的情况下训练AI模型的替代方法。

一组得到法国政府支持的研究人员通过发布一组由全文公共领域文本组成的AI训练数据集在这一领域做出了开创性贡献。这一数据集提供了证据，表明大型语言模型可以在不需要无版权许可的情况下进行训练。这一进展开启了训练AI模型的新可能性，确保了符合版权法。

此外，非营利组织Fairly Trained取得了重要里程碑，成功认证了其首个名为KL3M的大型语言模型。 KL3M是由一家位于芝加哥的法律科技咨询初创公司273 Ventures开发的，使用了一组包含法律、金融和监管文件的精心策划的数据集进行训练。通过遵守版权法并使用自己的数据集，273 Ventures证明了可以构建大型语言模型而不涉及版权侵犯的争议问题。

273 Ventures的联合创始人吉利安·博马里托（Jillian Bommarito）提到，其决定使用自己的数据集对KL3M进行训练是由于他们在法律行业风险规避客户的关切。客户希望确保其AI模型不是基于受版权保护或受污染的数据。博马里托强调，模型的规模并不需要非常庞大，强调高质量数据在实现更好性能和专业化方面的重要性。

尽管像KL3M这样的数据集目前可能相对于OpenAI等行业巨头编制的数据集规模较小，但未来却充满希望。研究人员最近发布了Common Corpus，声称这是目前最大的可用于语言模型的AI数据集，完全由公共领域内容组成。这一数据集托管在开源AI平台Hugging Face上，包括来自美国国会图书馆和法国国家图书馆等机构数字化的公共领域报纸的文本。Common Corpus旨在为研究人员和初创公司提供一个经过审核的训练集，免受版权问题的影响。

尽管由公共领域内容组成的数据集存在一些限制，比如可能包含陈旧信息，但它们为训练大型语言模型提供了一项宝贵的资源。像Common Corpus和KL3M这样的项目展示了AI社区对无需许可数据爬取的争论持有的日益怀疑态度。事实上，Fairly Trained最近认证了其首家提供AI语音模型的公司，表明该行业越来越倾向于获取适当许可并尊重知识产权的趋势。

The source of the article is from the blog aovotice.cz