Виклик забезпечення штучного інтелекту високоякісними даними.

Прихована голодність даних ШША розкрита

Компанії зі штучним інтелектом стикаються з наближеною проблемою, яка може потенційно нарушити їх розвиток: нестача високоякісного інтернет-контенту для навчання їх високошвидкісних мовних моделей. На відміну від звичайних користувачів інтернету, які шукають розваги, соціальні зв’язки та знання, компанії зі штучним інтелектом використовують великі обсяги даних для покращення можливостей своїх мовних моделей. Ці моделі, такі як ChatGPT, завдячують своїми знаннями та навичками формулювання відповідей вражаючій базі даних, походячій від веб-ресурсів.

Однак обмежена природа Інтернету означає, що резервуар даних для живлення цих ШША-моделей іншими словами може скоро вийти з рук. Компанії, такі як OpenAI та Google, визнають цей наближений дефіцит, з оцінками, що вказують на вичерпання засвоюваного високоякісного контенту протягом наступних кількох років. Попит на такі дані настільки великий, що навіть історичний контент інтернету не вистачає.

Вплив дефіциту даних на прогрес ШША

Навчання великих мовних моделей (ВММ) таких як GPT і Gemini вимагає величезного обсягу даних, не тільки за обсягом, а й за якістю. Компанії зі штучним інтелектом є вибірковими, фільтруючи велику кількість низької якості даних, яка пленила Інтернет, щоб уникнути неправдивої і погано написаної інформації, яка потрапляє у їх системи. Забезпечення точності у взаємодії з користувачами є головним пріоритетом.

Більше того, етичні непорозуміння збору даних ставлять значні питання. Багато користувачів можуть не усвідомлювати, що компанії зі штучним інтелектом можуть вже використовувати їх онлайн-дані для тренування. Це комерційне використання особистих даних, таке як продаж вмісту Reddit підприємствам зі штучним інтелектом, продовжується на тлі боротьби за права на конфіденційність користувачів і законових захистів.

Переглядаючи за межі інтернет-даних для ШША

Як відповідь, OpenAI та інші досліджують альтернативні джерела даних. Наприклад, OpenAI розглядає можливість навчання своєї моделі GPT-5, використовуючи транскрипції відкритих відео з платформ, таких як YouTube. Компанія також працює над меншими, спеціалізованими моделями і розглядає моделі оплати для постачальників високоякісних даних.

Синтетичні дані: Двосторонній меч?

Одним з питань-розбірок у ІКТ-індустрії є потенційне використання синтетичних даних. Хоча цей підхід може дозволити компаніям генерувати нові набори даних, які імітують оригінальні, зберігаючи конфіденційність, практика ризикує прискоренням ‘заколисання моделі’. Незважаючи на інноваційність, залежність від синтетичних даних може призвести до застою, оскільки моделі повторюють схожі патерни та відповіді, втрачаючи свою унікальність.

Попри неоднозначності, компанії зі штучним інтелектом залишаються оптимістичними щодо можливості використання синтетичних даних для вирішення своїх тренувальних потреб, за умови, що вони можуть пом’якшити пов’язані ризики. Можливість використання синтетичних даних без порушення цілісності системи надає промінь надії у пошуку способів підтримки прогресу технологій ШШ.

Ключові виклики в підтримці апетиту ШШ на високоякісні дані

Один з ключових викликів, пов’язаних із попитом на високоякісні дані, – етичні та правові наслідки збору даних. Високоякісні дані часто означають деталізовані, точні та віддзеркалюючі широкий спектр ситуацій та мов, але отримання таких даних у достатніх кількостях часто включає в себе використання особистих або приватних даних. Проблеми конфіденційності та потенційне використання даних ставлять серйозні питання, порушуючи питання згоди та прав людей, чиї дані можуть бути використані для навчання систем ШШ. Знаходження балансу між необхідністю у комплексних наборах даних та необхідністю захищати особисту конфіденційність є складною задачею.

Іншим викликом є потенціал для упереджень та недорозумінь. Вибір високоякісних даний означає фільтрування місleading, некоректного або низької якості контенту. Однак сторонні упередження можуть ненавмисно бути введені під час процесу фільтрування, що призводить до ШШ моделей, які можуть підтримувати ці упередження.

Переваги та недоліки потенційних рішень

Альтернативні джерела даних
Переваги:
– Диверсифікація джерел даних може збагатити ШШ моделі, пропонуючи ширшу перспективу та більш глибоке розуміння.
– Використання даних з громадських джерел або даних з чіткою згодою може пом’якшити етичні та конфіденційні питання.

Недоліки:
– Дані громадського доступу або дані, для яких надано згоду, можуть бути обмеженими або менш різноманітними.
– Вимога згоди на використання даних може значно уповільнити процес збирання.

Синтетичні дані
Переваги:
– Синтетичні дані можуть бути згенеровані великими кількостями та налаштовані під конкретні потреби, зробивши це масштабованим рішенням.
– Вони можуть допомогти уникнути проблем конфіденційності, оскільки вони не включають реальних даних користувачів.

Недоліки:
– Синтетичні дані можуть вводити штучні упередження та відсутність складності створеного людьми вмісту.
– Залежність від синтетичних даних може призвести до стагнації та занепаду моделей, якщо дані не вистачить у різноманітності.

Контроверсії

Використання особистих даних без явної згоди – гостре питання. Наприклад, компанії, як Reddit, які продають вміст користувачів фірмам зі штучним інтелектом, викликали дебати про власність даних та етичне використання. Інша контроверсія стосується синтетичних даних, де можливість призвести до занепаду моделі та побоювання щодо “нетрадиційного” характеру вводить у страхи щодо якості та надійності виходів ШШ.

Пов’язані посилання

OpenAI – OpenAI – це дослідницька та розгортальна компанія зі штучним інтелектом, яка перебуває на передньому краї розвитку та навчання великоштучних масштабних ШШ моделей.
Google – Google – це міжнародна корпорація, яка займається дослідженнями в галузі штучного інтелекту та розробленням різноманітних моделей та інструментів машинного навчання.

Загалом виклики забезпечення потреб ШШ у високоякісних даних мають багатозначний характер, включаючи технічні, етичні та правові аспекти. Досліджувані рішення мають потенціал подолати ці виклики, але вони не обходять своїх власних компромісів. Знаходження балансу, який сприяє розвитку ШШ, захищає конфіденційність та уникненню упереджень, – це основний підвідомчий ШШ компаній і суспільства в цілому.