Нові шляхи отримання даних для тренування ШІ: відкрите використання відбірки фото з Instagram

Технологійні компанії постійно шукають способи покращити свої моделі штучного інтелекту (ШІ), а дані є вирішальним чинником у цьому завданні. В останньому звіті OpenAI розкрила своє використання понад мільйон годин відеороликів з YouTube для тренування своєї передової мовної моделі, GPT-4.

Для тренування таких потужних моделей ШІ потрібні величезні обсяги даних, і OpenAI звернулася до великої відеобібліотеки YouTube з цією метою. З використанням інструменту розпізнавання мови під назвою Whisper, модель GPT-4 переписувала вміст відео, надаючи обширний набір даних для тренування.

Однак цей підхід викликав питання щодо дотримання політики YouTube. Google, власник YouTube, строго обмежує використання своїх відео для незалежних додатків. Процес переписування відеоданих викликав спекуляції про можливі порушення авторських прав.

На запитання про використання YouTube-даних OpenAI генеральний директор YouTube Ніл Мохан висловив невизначеність, заявивши, що не був обізнаний з таким використанням. Проте він визнав, що використання відеозаписів з YouTube без належної авторизації може виникнути серйозна проблема.

Слід зазначити, що OpenAI не є єдиною компанією, яка вивчає підходи до отримання додаткових даних для тренування ШІ. І сам Google транскрибує вміст YouTube за угодами з творцями. Компанія Марка Цукерберга Meta також стала предметом заголовків, обговорюючи можливе придбання Simon & Schuster для доступу до великої бібліотеки книг.

Чому обов’язково потрібні дані?

Ефективність та можливості моделей ШІ прямо корелюють з об’ємом та якістю даних, на яких вони навчаються. Фактично, попит на високоякісні дані настільки великий, що експерти передбачають можливе вичерпання доступних даних Інтернету до 2026 року, це ілюструє гонку за накопиченням великих обсягів інформації.

ЧаВО

Що таке GPT-4?
GPT-4 означає “Generative Pre-trained Transformer 4” і є мовною моделлю, розробленою OpenAI. Вона використовує методи глибокого навчання для генерування людиною подібного тексту на основі наданого контексту.

Що таке розпізнавання мови?
Розпізнання мови – це технологія, що перетворює усну мову в письмовий текст. У випадку OpenAI GPT-4 інструмент розпізнавання мови Whisper транскрибував вміст відео з YouTube.

Як дані впливають на моделі ШІ?
Дані критичні для навчання моделей ШІ. Обсяг та якість даних безпосередньо впливають на продуктивність, точність та можливості моделі ШІ. Більші дані дозволяють зробити кращі прогнози і глибше зрозуміти складні патерни.

Чи є проблеми з авторськими правами при транслюванні відео з YouTube?
Так, транскрибування відео з YouTube без належної авторизації може потенційно порушити авторське право. YouTube обмежує використання своїх відео для незалежних застосунків, а несанкціоноване транскрібування може порушити права творців.

Які загальні платформи ШІ отримують дані?
Компанії з ШІ використовують різноманітні джерела для отримання даних. Це може бути публічні набори даних, партнерства з постачальниками даних або угоди з творцями вмісту для доступу до їх контенту для цілей навчання.

Поки гонка за даними набирає обертів, компанії, такі як OpenAI та Google, продовжують досліджувати інноваційні способи ефективного тренування своїх моделей ШІ. Хоча існують обурення стосовно дотримання правил і авторських прав, бажання досягнень в області ШІ на основі даних залишається незгаснутим.

Джерела:

Hindustan Times

The source of the article is from the blog procarsrl.com.ar