Роль даних у розвитку штучного інтелекту: технологічні компанії в пошуку нових методів

У змаганні за лідерство у світі із штучного інтелекту (ШІ), компанії, такі як OpenAI, Google та Meta, стикаються з викликами у здобутті необхідних цифрових даних для розвитку своєї технології. Ця стаття розглядає стратегії, до яких вдаються ці компанії, їх можливі порушення правил і законів, а також зростаючу спрагу до даних у галузі ШІ.

OpenAI, відома своїми потужними моделями ШІ, стикнулася із проблемою з постачанням даних у кінці 2021 року, коли вичерпала всі поважні джерела англомовного тексту в Інтернеті для тренування своєї системи ШІ. Для подолання цієї перепони дослідники OpenAI розробили інструмент розпізнавання мови на основі названий Whisper. Мета цього інструмента полягала в транскрибуванні аудіо з відеороликів YouTube, що могло покращити можливості їх системи ШІ.

Проте всередині OpenAI виникли побоювання щодо можливого порушення правил YouTube через використання їх відеороликів для цієї “незалежної” програми. Незважаючи на ці побоювання, команда OpenAI під керівництвом Грега Брокмана, президента OpenAI, продовжила транскрибувати понад один мільйон годин відеороликів YouTube. Отримані тексти були використані для тренування GPT-4, однієї із найпотужніших моделей ШІ у світі, яка стала основою для останньої версії чат-бота ChatGPT.

Аналогічно в Meta (раніше Facebook) керівники, юристи та інженери компанії обговорювали покупку видавництва Simon & Schuster для отримання доступу до довгих письмових творів. Крім того, компанія обговорювала видобуток авторських даних з різних джерел у Інтернеті, будучи готовою до можливих судових позовів замість укладання ліцензійних угод з видавцями та творцями вмісту.

Розвиток моделей ШІ пройшов значний зміщення востаннє. До 2020 року моделі, такі як GPT-2, оперували відносно невеликими обсягами тренувальних даних. Проте з випуском GPT-3 дослідники почали включати значно більші набори даних для ефективного тренування моделей.

Оскільки галузь ШІ продовжує підкорювати нові горизонти, здобуття великих обсягів даних стає критичним для подальшого розвитку. Компанії, такі як OpenAI та Meta, готові йти на компроміси, потенційно порушуючі правила та приймаючи правові ризики для задоволення своїх потреб у даних. Дискусія про етичні та правові аспекти збору даних у галузі ШІ, ймовірно, буде тривати по мірі просування технологій.

ЧАСТО ЗАДАВАНІ ПИТАННЯ:

Що таке ШІ?
ШІ або Штучний інтелект – це розвиток комп’ютерних систем, які здатні виконувати завдання, які зазвичай потребують людського інтелекту.
Що таке GPT-4?
GPT-4 – це одна з найпотужніших моделей ШІ, розроблена OpenAI. GPT – це абревіатура від “Generative Pre-trained Transformer”, і використовується для генерації людино-подібного тексту на основі заданих промптів.
Що таке ChatGPT і Whisper?
ChatGPT – це чат-бот, розроблений OpenAI, який працює на основі моделей GPT. Whisper – це інструмент розпізнавання мови, створений OpenAI для транскрибування аудіо з відеороликів YouTube.

Для детального вивчення даної теми, ви можете звертатися до наступних джерел:

The source of the article is from the blog mendozaextremo.com.ar