Штучний інтелект та його використання в навчанні з використанням транскрипцій YouTube: запитання щодо авторських прав

У нещодавньому розвитку подій компанії OpenAI та Google стали об’єктом уваги через навчання своїх моделей штучного інтелекту за допомогою транскрипцій відео YouTube, що потенційно порушує авторські права творців. Доповідь The New York Times проливає світло на практики цих технологічних гігантів та їхні зусилля максимізувати потік даних для своїх систем штучного інтелекту. Хоча компанії використовували різні методи для отримання великого обсягу даних, виникли питання щодо легальності їхніх методів.

Згідно з доповіддю NYT, OpenAI використовувала свій інструмент розпізнавання мовлення Whisper для транскрибування понад один мільйон годин відео на YouTube, які потім були використані для тренування їхнього останнього генератора тексту на відео, Sora. Це стає продовженням попередніх заяв The Information, що OpenAI використовувала відео на YouTube та подкасти для навчання своїх систем штучного інтелекту. Зокрема президент OpenAI, Грег Брокман, як повідомлялося, був залучений до цього проекту.

Також висловлювались побоювання щодо практик Google, оскільки несанкціоноване вилучення або завантаження контенту YouTube заборонено. Представник Google, Метт Брайант, пояснив, що компанія не була обізнана з використанням OpenAI відео на YouTube та заявив, що вони не схвалюють такі дії. Однак з появою доповіді NYT виникає припущення, що деякі особи в Google були обізнані з практиками OpenAI, але не вживали жодних заходів, можливо, через самостійне використання Google відео на YouTube для навчання своїх моделей штучного інтелекту.

Важливо відзначити, що Google стверджує, що вони використовують відео від творців, які погодилися прийняти участь в їх експериментальній програмі. Engadget звернувся до Google і OpenAI за їхніми коментарями з цього питання.

ЧАП (часті запитання):

1. Чи порушують OpenAI та Google авторські права, тренуючи свої моделі штучного інтелекту на транскрипціях YouTube?
Є побоювання, що використання YouTube відео OpenAI та Google для тренування їх моделей штучного інтелекту може порушувати авторські права творців. Доповідь The New York Times підкреслює ці можливі порушення, вказуючи, що несанкціоноване вилучення або завантаження контенту YouTube не дозволяється. Однак Google стверджує, що вони використовують відео від творців, які погодилися прийняти участь у експериментальній програмі.

2. Яким підходом скористалася OpenAI у навчанні своєї моделі штучного інтелекту?
За звітами, OpenAI використовувала інструмент розпізнавання мовлення Whisper для транскрибування понад один мільйон годин відео на YouTube, які потім були використані для навчання їхнього генератора тексту на відео, Sora. Цей підхід спрямовувався на використання величезної кількості даних для поліпшення продуктивності моделі штучного інтелекту.

3. Чи визнав Google використання OpenAI відео YouTube для тренування?
Google заявив, що не був обізнаний в використанні OpenAI відео YouTube для тренування їхніх моделей штучного інтелекту та уточнив, що не підтримує несанкціоноване вилучення або завантаження контенту. Однак звіт вказує, що деякі особи в Google були обізнані з практиками OpenAI, але не приймали жодних заходів, можливо, через власне використання Google відео на YouTube для навчання своїх моделей штучного інтелекту.

4. Як розширив Google свою політику конфіденційності, як зазначено в звіті?
Звіт NYT розкриває, що Google оновив свою політику конфіденційності в червні 2022 року, щоб охопити ширший спектр доступного публічно контенту, такий як Google Docs та Google Sheets, для тренування їхніх моделей штучного інтелекту та продуктів. Однак Брайант підкреслив, що це робиться виключно з вираженим дозволом користувачів, які приєдналися до експериментальних функцій Google. Він також зазначив, що зміна політики не підштовхнула їх почати навчання своїх моделей штучного інтелекту на додаткових типах даних.

5. Чи надали OpenAI та Google офіційні заяви щодо цих звинувачень?
Engadget звернувся до обох компаній – OpenAI та Google – за їхніми коментарями з цього питання. Наразі не було офіційних заяв жодної з компаній стосовно звинувачень, піднятих в доповіді The New York Times.

Додаткова інформація про промисловість і прогнози ринку:

Промисловість штучного інтелекту за останні роки переживає значний ріст, а розмір ринку, за доповіддю MarketsandMarkets, повинен досягти $190,61 млрд до 2025 року. Цей зріст зумовлений зростаючим попитом на рішення, побудовані на штучному інтелекті, у різних секторах, таких як охорона здоров’я, фінанси, роздрібна торгівля та виробництво.

Одним з ключових викликів у галузі штучного інтелекту є потреба великого обсягу якісних даних для ефективного навчання моделей штучного інтелекту. Компанії, такі як OpenAI та Google, постійно досліджують різні джерела даних, включаючи публічно доступний контент, такий як відео на YouTube, для поліпшення продуктивності своїх систем штучного інтелекту.

Тим не менш, використання відео на YouTube для навчання моделей штучного інтелекту викликає питання щодо порушення авторських прав. Творці мають виключні права на свій контент, включаючи право на відтворення та поширення його. Несанкціоноване вилучення або завантаження відео на YouTube без згоди творців може потенційно порушити ці права.

Проблема порушення авторських прав у галузі штучного інтелекту не нова. Раніше були випадки, коли компанії були позовлені за використання захищеного авторським правом матеріалу у своїх наборах даних для навчання штучного інтелекту. Наприклад, у 2019 році фотограф подав позов проти великої компанії із штучного інтелекту за використання його авторських зображень без дозволу.

Щоб вирішити ці питання щодо авторських прав, компанії, як Google, вживають заходи для того, щоб вона використовувала тільки відео від творців, які погодилися прийняти участь у їхніх експериментальних програмах. Це робиться для відповідності законам про авторське право та поваги до прав творців.

Проте використання відео на YouTube для навчання моделей штучного інтелекту не є єдиною спірною практикою в галузі. Інші питання включають упередження в алгоритмах штучного інтелекту, побоювання щодо конфіденційності даних та етичні наслідки процесів прийняття рішень штучного інтелекту.

По мірі розвитку галузі штучного інтелекту важливо, щоб компанії коректно управляли цими юридичними та етичними аспектами, забезпечуючи відповідальне та законне використання даних у навчанні моделей штучного інтелекту.

Для отримання додаткової інформації про галузь штучного інтелекту та пов’язані проблеми ви можете відвідати наступні веб-сайти:

– MarketsandMarkets: Надає звіти з маркетингових досліджень і аналізу промисловості для різних секторів, включаючи Ринки та ринки.

The source of the article is from the blog japan-pc.jp