Кража цифрового контента: последствия для развития искусственного интеллекта

Компании в области технологий используют видеоролики с YouTube для обучения искусственного интеллекта

Компании в сфере искусственного интеллекта прибегают к спорным методам, используя огромное количество цифрового контента, включая видеоролики с YouTube, для обучения своих моделей искусственного интеллекта. Без должного согласия, материалы из социальных медиа, веб-сайтов, фотографий и записей используются для разработки искусственного интеллекта.

Раскрытие этично несанкционированного сбора данных

Недавнее расследование показало, что крупные игроки из Силиконовой долины, такие как Anthropic, Nvidia, Apple и Salesforce, извлекли субтитры из более чем 173 536 видеороликов с YouTube, используемых более чем на 48 000 каналах. Набор данных, названный Субтитрами YouTube, содержит транскрипты с образовательных каналов, таких как Khan Academy, MIT, Гарвард, а также средства массовой информации, такие как Wall Street Journal, NPR и BBC, используемые для обучения моделей искусственного интеллекта.

Неуполномоченное использование вызывает протесты со стороны создателей

Создатели, например, Дэвид Пакман, ведущий программы «The David Pakman Show» с более чем 2 миллионами подписчиков и 2 миллиардами просмотров, выразили беспокойство из-за несанкционированного использования их видеороликов. Отсутствие компенсации за использование контента вызывает беспокойство среди создателей, подчеркивая необходимость признания и честной оплаты при практиках источников данных для искусственного интеллекта.

Контроверсия вокруг сбора данных для искусственного интеллекта

Инкорпорирование данных без согласия продолжает представлять трудности в области искусственного интеллекта. Под напряженным пристальным взглядом со стороны отраслевых экспертов, дебата о этическом сборе данных для разработки искусственного интеллекта остается в центре технологических обсуждений.