Кілька технологічних гігантів, включаючи Apple, зіштовхнулися з обвинуваченнями в тому, що навчання моделей штучного інтелекту проводяться за допомогою відеороликів з YouTube без згоди творців контенту. Замість отримання дозволу, ці компанії витягли субтитри з понад 170 000 відео через сторонню програму.
Постраждалі творці, такі як відомий влогер з технологій Маркіс Броунлі (MKBHD), Містер Біст, ПьюДіПай, Стівен Кольберт, Джон Олівер та Джиммі Кіммел, всі постраждали від цього несанкціонованого використання їх контенту. Витягнуті субтитри – це транскрипції відеоматеріалу, чітке порушення політики YouTube.
Розкривши Розслідування та Висновки
Розслідування, проведене компанією Proof News, виклало на світло те, як деякі з найбагатших компаній у світі використовували матеріали з тисяч відеороликів з YouTube для навчання своїх моделей штучного інтелекту, нехтуючи регуляціями платформи. Дослідження показало, що субтитри з 173 536 відео з YouTube, походять з понад 48 000 каналів, були використані такими технологічними великанами, як Anthropic, Nvidia, Apple та Salesforce.
Завантаження проводилося організацією EleutherAI, неприбутковою організацією, яка допомагає розробникам у навчанні мовних моделей. Незважаючи на заявлену мету надання ресурсів для навчання малим розробникам і вченим, набір даних також був використаний великими технологічними компаніями, включаючи Apple.
Використання Датасету Pile
Як було вказано у досліджувальній статті, опублікованій EleutherAI, датасет у питанні є частиною компіляції, відомої як Pile. Ці набори даних є доступними для кожного в інтернеті, за умови наявності необхідних ресурсів і обчислювальної потужності. Не лише великі технологічні гіганти, але також вчені та розробники поза великими технологічними компаніями використовували ці набори даних.
Компанії, такі як Apple, Nvidia і Salesforce, які мають оцінки в сотнях мільярдів і трільйонах доларів, детально в своїх дослідницьких статтях описали, як вони використовували Pile для цілей навчання штучного інтелекту. Звіти свідчать, що Apple використовувала Pile для навчання OpenELM, мовної моделі, що була запущена у квітні, недовго до розкриття нових можливостей із штучного інтелекту для iPhone та MacBook.
Додаткові Наслідки Несанкціонованого Використання Контенту для Навчання Штучного Інтелекту
Хоча початкове розслідування підкреслило широкомасштабне несанкціоноване витягнення контенту з YouTube для навчання моделей штучного інтелекту, додаткові наслідки випливають із цього практики. Використання технологічними гігантами субтитрів з відеороликів з YouTube без явної згоди творців контенту породжує декілька важливих питань, які потребують дослідження.
Ключові Питання:
1. Правові Наслідки: Які потенційні правові наслідки для технологічних компаній, які залучені до несанкціонованого використання контенту з YouTube для навчання штучного інтелекту?
Відповідь: Компанії можуть потрапити під судові позови за порушення авторських прав, заподіяні збитки та репутаційні збитки за порушення прав інтелектуальної власності творців контенту без належної авторизації.
2. Етичні Питання: Як несанкціоноване використання контенту відображається на етичних стандартах цих технологічних гігантів?
Відповідь: Відсутність згоди та прозорості у використанні контенту третіх сторін для розвитку штучного інтелекту викликає питання про етичні практики, права на конфіденційність та справедливу компенсацію для творців.
3. Проблеми Захисту Даних: Які наслідки має витягування субтитрів з відеороликів з YouTube для конфіденційності та безпеки даних користувачів?
Відповідь: Несанкціоноване парсинг відеоконтенту для навчання штучного інтелекту може порушити конфіденційність користувачів, оскільки особиста інформація, що міститься в субтитрах, може бути зловживана або неадекватно оброблена.
Виклики та Контроверзії:
Контроверзія, пов’язана з несанкціонованим використанням контенту з YouTube для навчання штучного інтелекту, виявляє кілька викликів та контроверзій, які потребують уваги та вирішення.
Переваги:
1. Ефективне Навчання за Рахунок Вартості: Отримання загальнодоступних наборів даних, таких як Pile з платформ, таких як YouTube, може зменшити витрати на збір та анотацію великої кількості тренувальних даних.
2. Покращення Можливостей Штучного Інтелекту: Завдяки використанню різноманітних джерел контенту для навчання моделей штучного інтелекту, технологічні гіганти можуть покращити точність та універсальність своїх систем штучного інтелекту для майбутніх розробок.
Недоліки:
1. Відсутність Прозорості: Секретне вилучення відеоконтенту без належної атрибуції або згоди підриває прозорість та відповідальність у процесах розвитку штучного інтелекту.
2. Порушення Прав Інтелектуальної Власності: Несанкціоноване використання авторських матеріалів для навчання штучного інтелекту порушує питання прав інтелектуальної власності та справедливої компенсації для творців контенту.
Для отримання додаткових відомостей про етику штучного інтелекту, захист даних та регулювання технологій відвідайте AoL News.