Розвиток штучного інтелекту: вимоги до даних та суперечливі методи великих технологічних гігантів

У змаганні за розробку передових моделей штучного інтелекту головні технологічні компанії, такі як OpenAI, Google та Meta, використовують незвичні, іноді суперечливі методи для отримання величезних обсягів даних. Оскільки технологія штучного інтелекту розвивається, збільшується попит на великі обсяги високоякісних даних, що спонукає ці компанії досліджувати нові шляхи отримання даних.

За останнім звітом, OpenAI використовувала понад мільйон годин відеороликів YouTube для навчання своєї потужної мовної моделі, GPT-4. Замість прямого використання відео, OpenAI використовувала інструмент розпізнавання мови імені Whisper для транскрибування контенту та створення нового розмовного тексту. Хоча цей підхід викликав питання про дотримання політики YouTube, оскільки платформа обмежує використання своїх відео незалежними додатками, OpenAI знайшла обхідний шлях через транскрипцію контенту.

Так само Google і Meta, материнська компанія Facebook та Instagram, також використовують суперечливі джерела даних. Звіт вказує на те, що Google транскрибував відеоролики YouTube для тренування штучного інтелекту, що потенційно порушувало авторські права, та навіть змінив умови надання послуг для доступу до більшого обсягу контенту, створеного користувачами. Meta досліджувала можливість придбання Simon & Schuster для отримання доступу до великої бібліотеки книг та розглядала використання авторських даних з Інтернету, незважаючи на етичні й правові наслідки.

Обсяг Даних та Продуктивність штучного інтелекту

Ефективність моделей штучного інтелекту, особливо в генерації тексту, зображень, звуків та відео, значно залежить від обсягу даних, на яких вони навчаються. Неситна потреба у високоякісних даних у галузі штучного інтелекту призвела до припущень про те, що технологічні компанії можуть вичерпати наявні інтернет-дані до 2026 року. Це підкреслює важливу роль отримання даних у поширенні можливостей штучного інтелекту.

Відповіді від Компаній

OpenAI відреагувала на побоювання, заявивши, що кожна з її моделей штучного інтелекту навчається за унікальним набором даних, підкреслюючи необхідність збереження конкурентоспроможності в дослідженнях. Google, з іншого боку, визнало, що тренує свої моделі штучного інтелекту на певному контенті YouTube, але уточнило, що робить це на умовах угод з творцями контенту. Вони також уточнили, що дані з офісних додатків не використовуються поза експериментальними програмами. Meta наголошує на своєму зобов’язанні інтегрувати штучний інтелект у свої послуги шляхом використання мільярдів публічно розповсюджених зображень та відео.

ЧАП

1. Чому технологічні компанії, такі як OpenAI та Google, потребують величезних обсягів даних для навчання своїх моделей штучного інтелекту?

Технологічні компанії покладаються на великі обсяги даних для навчання моделей штучного інтелекту, оскільки продуктивність і точність цих моделей значно покращуються зі збільшенням обсягу даних, на яких вони навчаються. Більше даних дозволяють моделям штучного інтелекту вчитися патернам, робити прогнози та генерувати більш реалістичні та людям подібні результати.

2. Які суперечливі питання виникають щодо отримання даних цими технологічними гігантами?

Суперечки виникають, коли технологічні компанії використовують дані з джерел, таких як YouTube, без явної згоди або можливо порушують авторські права. Існують побоювання щодо етичних наслідків таких практик і впливу на конфіденційність користувачів та права на інтелектуальну власність.

3. Як технологічні компанії вирішують ці побоювання?

OpenAI стверджує, що кожна з її моделей штучного інтелекту навчається на унікальних наборах даних для збереження конкурентоспроможності. Google стверджує, що має угоди з творцями контенту щодо використання вмісту YouTube і підкреслює, що поза експериментальними програмами дані з офісних додатків не використовуються. Meta акцентує на своєму намірі інтегрувати штучний інтелект у свої послуги, використовуючи мільярди публічно доступних зображень та відео.

Джерела:
– The New York Times: [URL]
– WSJ: [URL]

The source of the article is from the blog tvbzorg.com