Гиганты технологической индустрии обвинены в несанкционированном использовании контента YouTube для обучения искусственного интеллекта

Ряд крупных технологических гигантов, включая Apple, столкнулись с обвинениями в том, что они обучают модели искусственного интеллекта, используя видеоролики с YouTube без согласия создателей контента. Вместо получения разрешения эти компании извлекли субтитры из более чем 170 000 видеороликов с помощью стороннего приложения.

Пострадавшие создатели контента, такие как известный технологический видеоблогер Marquees Brownlee (MKBHD), MrBeast, PewDiePie, Стивен Кольбер, Джон Оливер и Джимми Киммел, все пострадали от этого несанкционированного использования их контента. Извлеченные субтитры являются транскрипцией видеоконтента, что является явным нарушением политики YouTube.

Расследование и выводы

Проведенное исследование Proof News пролило свет на то, как некоторые из самых богатых компаний в мире использовали материалы из тысяч видеороликов с YouTube для обучения своих моделей AI, игнорируя правила платформы. Расследование показало, что субтитры из 173 536 видеороликов с YouTube, поступающих из более чем 48 000 каналов, использовались технологическими гигантами, такими как Anthropic, Nvidia, Apple и Salesforce.

Загрузки осуществлялись с помощью EleutherAI, некоммерческой организации, помогающей разработчикам в обучении языковых моделей. Несмотря на их заявленную цель предоставления тренировочных ресурсов для малых разработчиков и академиков, набор данных также был использован и крупными технологическими компаниями, включая Apple.

Использование набора данных Pile

Как указано в опубликованной исследовательской статье EleutherAI, набор данных, о котором идет речь, является частью компиляции, известной как Pile. Эти наборы данных открыто доступны для всех в Интернете, при наличии необходимых ресурсов и вычислительной мощности. Не только крупные технологические гиганты, но и ученые и разработчики вне крупных технологических компаний использовали эти наборы данных.

Компании, такие как Apple, Nvidia и Salesforce с оценками в сотни миллиардов и триллионы долларов, подробно описали в своих исследовательских статьях, как они использовали Pile для целей обучения искусственного интеллекта. Сообщается, что Apple использовала Pile для обучения OpenELM, языковой модели, запущенной в апреле, незадолго до представления новых возможностей искусственного интеллекта для iPhone и MacBook.

Дальнейшие последствия несанкционированного использования контента для обучения искусственного интеллекта

Хотя первоначальное расследование выявило широкое несанкционированное извлечение контента с YouTube для обучения моделей искусственного интеллекта, из этой практики возникают дополнительные последствия. Использование крупными технологическими гигантами субтитров из видеороликов YouTube без явного согласия создателей контента возбуждает несколько критических вопросов, которые заслуживают дальнейшего исследования.

Ключевые вопросы:

1. Правовые последствия: Какие могут быть потенциальные юридические последствия для технологических компаний, участвующих в несанкционированном использовании контента с YouTube для обучения исскуственного интеллекта?

Ответ: Компании могут столкнуться с исками о нарушении авторских прав, ущербом и утратой репутации за нарушение интеллектуальной собственности создателей контента без соответствующего разрешения.

2. Этические аспекты: Как несанкционированное использование контента влияет на этические стандарты этих технологических гигантов?

Ответ: Отсутствие согласия и прозрачности в использовании контента сторонних лиц для разработки искусственного интеллекта вызывает опасения относительно этической практики, прав на конфиденциальность и справедливой компенсации для создателей.

3. Проблемы конфиденциальности данных: Какие последствия извлечение субтитров из видеороликов с YouTube может иметь на конфиденциальность и безопасность данных пользователей?

Ответ: Несанкционированный сбор видеоконтента для обучения искусственного интеллекта может нарушить конфиденциальность пользователей, поскольку персональная информация, встроенная в субтитры, может быть злоупотреблена или неправильно обработана.

Трудности и контроверзии:

Контроверзия, связанная с несанкционированным использованием контента с YouTube для обучения искусственного интеллекта, вызывает ряд трудностей и спорных вопросов, которые требуют внимания и разрешения.

Преимущества:

1. Эффективность в обучении: Доступ к общедоступным наборам данных, таким как Pile, с платформ, таких как YouTube, может снизить затраты на сбор и аннотирование большого объема тренировочных данных.

2. Расширение возможностей искусственного интеллекта: За счет использования разнообразных источников контента для обучения моделей искусственного интеллекта, технологические гиганты могут улучшить точность и универсальность своих систем искусственного интеллекта для будущих разработок.

Недостатки:

1. Отсутствие прозрачности: Тайное извлечение видеоконтента без должной атрибуции или согласия подрывает прозрачность и ответственность в процессах разработки искусственного интеллекта.

2. Нарушение авторских прав: Несанкционированное использование материалов с авторским правом для обучения искусственного интеллекта вызывает вопросы об интеллектуальных правах и справедливой компенсации для создателей контента.

Для более подробной информации об этике искусственного интеллекта, конфиденциальности данных и регуляциях в области технологий посетите Сайт AoL News.