Потенційний дефіцит текстових даних для розвитку штучного інтелекту

Системи штучного інтелекту незабаром можуть стати перед значним викликом через потенційне виснаження даних у вигляді тексту, створеного людьми, які є ключовими для їх розвитку. Дослідницька група Epoch AI повідомила, що вже до 2026 року і не пізніше 2032 року джерело публічно доступних даних для навчання мовних моделей штучного інтелекту може пересохнути.

Автор дослідження, Тамай Бесіроглу, зазначив, що без постійного джерела аутентичного тексту, створеного людьми, підтримка поточного темпу розвитку штучного інтелекту може виявитися проблематичною. У найближчий час технологічні компанії, такі як OpenAI, яка розробила ChatGPT, і Google, конкурують за забезпечення та час від часу оплачують якісні дані, включаючи угоди для доступу до текстового вмісту з платформ, таких як Reddit та різні новинні ресурси.

Дивлячись у майбутнє, наразі використовувані ресурси нових блогових публікацій, новинних статей та коментарів у соціальних мережах можуть бути недостатні для підтримки траєкторії розвитку штучного інтелекту. Цей дефіцит може змусити компанії розглянути можливість використання вже приватних і чутливих даних, таких як особисті електронні листи чи SMS-повідомлення, або покладатися на менш надійні синтетичні дані, що генеруються самими чатботами. Бесіроглу зазначив, що у цьому аспекті існує “серйозна тіснина”.

Це оглядове дослідження планується презентувати на Міжнародній конференції з машинного навчання у Відні цього літа. Проект Epoch є ініціативою громадського об’єднання “Rethink Priorities” заснованого у Сан-Франциско.

Бесіроглу також звернув увагу на розуміння серед дослідників інтелектуального кіберпростору, що великі стрибки в продуктивності систем штучного інтелекту можуть бути досягнуті за рахунок розширення обчислювальної потужності та використання великих обсягів даних з Інтернету. За даними дослідження Epoch, обсяг текстових даних, введених у мовні моделі штучного інтелекту, зростає приблизно в 2,5 рази щорічно, у той час як обчислювальна потужність зростає близько в 4 рази щорічно.

Ніколя Паперно, асистент професора комп’ютерної інженерії Університету Торонто та дослідник інституту досліджень з штучного інтелекту, який не брав участь у дослідженні Epoch, зазначив важливість розуміння, що побудова все більших моделей не є необхідною умовою. Він запропонував, що моделі, спеціалізовані для конкретних задач, можуть призвести до більш ефективних систем штучного інтелекту. Однак, Паперно висловив обурення стосовно навчання генеративних систем штучного інтелекту за допомогою висновків штучного інтелекту, зазначивши, що це може призвести до погіршення продуктивності, аналогічно до деградації інформації при постійному копіюванні документа.

Ключові питання та відповіді:

1. Чому може стати потенційним дефіцит текстових даних для розвитку ШІ?
Можливий дефіцит може виникнути через обмежене кількість публічно доступних даних у вигляді тексту, створеного людьми, які можна використовувати з етичних міркувань для навчання систем штучного інтелекту. Оскільки ці системи залежать від величезної кількості даних, швидке збільшення попиту може перевищити видобуття нового контенту, створеного людьми.

2. Як компанії, такі як OpenAI та Google, ставляться до цього потенційного дефіциту?
Компанії намагаються забезпечити якісні дані через партнерства та угоди з платформами, що мають великі текстові набори даних, як Reddit та різні новинні джерела, щоб забезпечити постійний потік даних для навчання своїх моделей ШІ.

3. Які можливі альтернативи людям-згенерованим текстам для навчання ШІ?
Якщо людями-генерований текст стане дефіцитним, компанії можуть звернутися до приватних і чутливих даних, що викликає етичні питання, або покладатися на синтетичні дані, що створюються штучним інтелектом, але цей підхід може призвести до зниження продуктивності ШІ.

Виклики, Контроверсії, та Переваги/Недоліки:

Основний виклик полягає у тому, як забезпечити якість та різноманітність даних, необхідних для постійного покращення моделей ШІ, не порушуючи приватність або етичні стандарти. Основна контроверсія стосується приватності та врахування згоди користувачів, якщо використовуються приватні тексти.

Переваги:
– Постійне покращення ШІ може призвести до кращих AI-асистентів усередині галузей.
– Спеціалізовані моделі для певних галузей чи завдань можуть покращити ефективність та продуктивність.

Недоліки:
– Дефіцит якісних даних може призвести до неадекватних моделей або упередженостей через зменшену різноманітність наборів даних.
– Продуктивність ШІ може погіршуватися з часом, якщо вони залежать від синтетичних або низькожальних даних.

Відносні додаткові факти:
– Правила конфіденційності даних, як, наприклад, GDPR в Європі, можуть вплинути на доступність текстових даних для навчання ШІ, вимагаючи уважних обгрунтувань, щоб забезпечити відповідність.
– Прогрес у техніках невказаного та самостійного навчання може частково скоригувати необхідність у великих масивах позначених текстових даних.
– Тривають дослідження з використанням невеликих наборів даних для навчання, де штучний інтелект може навчатися з значно менших комплектів даних, що потенціально зменшує необхідність у великих корпусах тексту.

Посилання на авторитетні інформаційні ресурси про дані теми:
– Google AI
– OpenAI
– Rethink Priorities

Плюси та мінуси цієї ситуації повинні бути уважно збалансовані, з особливою увагою до приватності, юридичних та етичних питань, оскільки пошук нагромадження даних може призвести до значних витрат. Дослідники та розробники також повинні сконцентрувати зусилля на створенні більш ефективних моделей, які можуть працювати добре з меншою кількістю даних або використовувати синтез даних у відповідальний спосіб.