AI模型在YouTube转录上训练引发版权争议

最近，OpenAI和Google因使用YouTube视频转录来训练他们的AI模型而受到质疑，可能侵犯了创作者的版权。《纽约时报》的报道揭示了这些科技巨头的做法，以及他们为最大化AI系统的数据输入所做的努力。尽管这些公司采用了各种技术来获取大量数据，但人们对其方法的合法性提出了质疑。

据报道，OpenAI据说使用了其Whisper语音识别工具来转录超过一百万小时的YouTube视频，然后利用这些视频来训练他们最新的文本到视频生成器Sora。这是根据《纽约时报》的报道。此前，《信息》曾声称OpenAI曾使用YouTube视频和播客来训练他们的AI系统。值得注意的是，据报道，OpenAI的总裁Greg Brockman曾参与了这个项目。

谷歌的做法也引起了关注，因为未经授权地抓取或下载YouTube内容是被禁止的。谷歌的发言人Matt Bryant澄清称，公司并不知道OpenAI使用YouTube视频，并表示他们不支持这样的行为。然而，《纽约时报》的报道指出，谷歌公司的一些人员已经知道OpenAI的做法，但没有采取行动，可能是因为谷歌自己也在使用YouTube视频来训练他们的AI模型。

值得注意的是，谷歌声称他们只使用同意参与他们试验项目的创作者的视频。Engadget已经就此事联系了谷歌和OpenAI以获取他们的意见。

此外，《纽约时报》的报道显示，谷歌在2022年6月修订了其隐私政策，将更广泛的公开内容，如Google文档和Google表格，纳入到训练他们的AI模型和产品中。然而，Bryant强调，这仅仅是在用户明确同意参与谷歌实验功能的情况下才会这样做。他还表示，政策的变化并没有促使他们开始在额外类型的数据上训练他们的AI模型。

FAQ

1. OpenAI和Google通过在YouTube转录上训练他们的AI模型是否违反版权？
有人担心OpenAI和Google使用YouTube视频来训练他们的AI模型可能侵犯到创作者的版权。《纽约时报》的报道突出了这些潜在的违规行为，表明未经授权的抓取或下载YouTube内容是不被允许的。然而，谷歌声称他们只使用那些同意参与试验项目的创作者的视频。

2. OpenAI在训练他们的AI模型时采取了什么样的方法？
据报道，OpenAI据说使用其Whisper语音识别工具转录了一百万小时以上的YouTube视频，随后使用这些视频来训练他们的文本到视频生成器Sora。这种方法旨在利用大量数据来提升AI模型的性能。

3. 谷歌对OpenAI使用YouTube视频进行训练是否有所认可？
谷歌表示他们不知道OpenAI使用YouTube视频来训练他们的AI模型，澄清称他们不支持未经授权的抓取或下载内容。然而，报道指出，一些谷歌员工知道OpenAI的做法但未采取行动，可能是因为谷歌自己也在使用YouTube视频来训练他们的AI模型。

4. 正如报道中提到的，谷歌如何扩大其隐私政策？
《纽约时报》报道透露，谷歌在2022年6月更新其隐私政策，以包括更广泛的公开内容，如Google文档和Google表格，用于训练他们的AI模型和产品。然而，谷歌强调他们只在用户明确同意参与他们实验功能的情况下使用这些数据。

5. OpenAI和Google有否就这些指控提供任何正式声明？
Engadget已经就此事联系了OpenAI和谷歌以获取他们的意见。目前，没有任何公司就《纽约时报》的报告中提出的指控发表过官方声明。

除了文章中提供的信息外，以下是关于AI行业、市场预测以及使用YouTube转录训练模型时涉及的问题的更多细节：

AI行业近年来经历了显著增长，根据MarketsandMarkets的报告，到2025年市场规模预计将达到190.61亿美元。这种增长受到在医疗保健、金融、零售和制造等各个领域对AI解决方案需求增加的推动。

AI行业面临的主要挑战之一是需要大量高质量的数据来有效训练AI模型。像OpenAI和谷歌这样的公司不断探索不同的数据来源，包括像YouTube视频这样的公开内容，以改善他们AI系统的性能。

然而，使用YouTube视频来训练AI模型引发了有关版权侵犯的担忧。创作者对他们的内容拥有独家权利，包括再现和分发的权利。未经创作者同意未经授权地抓取或下载YouTube视频可能潜在地侵犯这些权利。

AI行业中的版权侵犯问题并不新鲜。过去曾发生过一些公司因在其AI训练数据集中使用受版权保护的材料而被起诉的案例。例如，2019年，一名摄影师起诉一家主要AI公司使用他的受版权保护的图片而未经允许。

为了解决这些版权问题，谷歌等公司已实施措施确保他们只使用那些同意参与其试验项目的创作者的视频。这是为了遵守版权法律并尊重创作者的权利。

然而，在AI行业中，使用YouTube视频来训练AI模型并不是唯一具有争议的做法。其他问题包括AI算法中的偏见、数据隐私问题以及AI决策所涉及的道德问题。

随着AI行业的不断发展，企业必须处理这些法律和道德问题，以确保在训练AI模型时使用数据的负责和合法性。

有关AI行业和相关问题的更多信息，请访问以下网站：

MarketsandMarkets: 为各个行业提供市场研究报告和行业分析。

The source of the article is from the blog krama.net