Výzva pre technologické spoločnosti: Získavanie dát pre ich modely AI

V snahe o vedenie v umelej inteligencii (AI) sa technologické spoločnosti stretávajú s kritickou výzvou: potrebou rozsiahlych množstiev dát na výcvik svojich modelov AI. Spoločnosti ako OpenAI, Google a Meta prijali pochybné kroky, zavádzajúce z firemných politík a dokonca sa vyhýbajúce právnym hraniciam.

OpenAI napríklad čelila problému dodávok koncom roku 2021. Na výcvik svojho najnovšieho systému AI potrebovala viac dát, ale už vyčerpala spoľahlivé zdroje anglickojazyčného textu na internete. V reakcii výskumníci OpenAI vyvinuli Whisper, nástroj na rozpoznávanie reči, ktorý transkriboval zvuk z videí na YouTube. Vzniknutý konverzačný text bol dodaný do ich výkonného modelu AI, GPT-4, aby sa zdokonalili jeho schopnosti.

Používanie videí na YouTube na transkripciu textu vyvolalo obavy o možné porušenia pravidiel YouTube. Napriek tomu OpenAI pokračovala a transkribovala cez 1 milión hodín videí, pričom použila texty na zlepšenie svojho systému AI. Greg Brockman, prezident OpenAI, osobne participoval na zbere týchto videí.

Podobne aj Meta, materská spoločnosť Facebooku a Instagramu, preskúmala rôzne metódy na získanie potrebných údajov. Interné stretnutia odhalili diskusie o kúpe Simon & Schuster, vydavateľského domu, aby získali prístup k dlhým dielam. Uvažovali aj o zbieraní autorských údajov z rôznych častí internetu, aj keď by to znamenalo čeliť právnym následkom. Vyjednávanie o licenciách s vydavateľmi a tvorcami obsahu bolo vnímané ako časovo náročné a nepraktické.

Google, ďalší hlavný hráč v oblasti AI, sa uchytil po transkribovaní videí z YouTube na získanie údajov a potenciálne porušil autorské práva tvorcov videí. Spoločnosť tiež rozšírila svoje podmienky služby na prístup k verejne dostupným dokumentom Google Docs, recenziám reštaurácií na Google Maps a iným online materiálom, s cieľom ich využiť pre produkty AI.

Akcie týchto technologických spoločností poukazujú na rastúcu závislosť od online informácií na podporu pokroku v oblasti AI. Texty, obrazy, zvuky a videá vytvorené ľuďmi sa stali neoceniteľnými zdrojmi na výcvik systémov AI. Ako sa modely AI stávajú silnejšími, množstvo údajov, ktoré potrebujú, neustále narastá.

Technologické spoločnosti čelia naliehavému problému v prístupe k vysoko kvalitným dátam. Internet bol kedysi hojným zdrojom informácií, ale pokroky v oblasti AI vyžadujú viac rôznorodých a rozsiahlych skladísk. Avšak predpisy ako ochranné zákony bránia spoločnostiam ako Google a Meta využívať obsah vytvorený používateľmi na účely AI.

Odborníci predpovedajú, že technologickí giganti môžu vyčerpať dostupné vysoko kvalitné údaje na internete už v roku 2026. V dôsledku toho sa spoločnosti ocitajú v hľadaní alternatívnych prístupov k združovaniu údajov, vrátane vytvárania syntetických informácií. To znamená, že modely AI generujú text, obrazy a kód, aby sa učili zo svojho vlastného výstupu.

OpenAI, Google a Meta sa vyrovnávajú s obavami o získanie údajov, zdôrazňujúc svoje snahy o kuráciu a začleňovanie údajov do svojich modelov AI. OpenAI uvádza, že každý z jeho modelov AI má jedinečnú sadu údajov, kurátorovanú na zlepšenie ich rozumievanie sveta. Google uznáva použitie obsahu z YouTube, ale striktne v rámci dohôd s tvorcami, zatiaľ čo Meta zdôrazňuje svoju veľkú zbierku verejne zdieľaných obrázkov a videí z Instagramu a Facebooku.

Rastúce využívanie kreatívnych diel technologickými spoločnosťami vyvolalo právne spory ohľadom autorských práv a licencií. Viaceré obchodné skupiny, autori a spoločnosti podali komentáre na úrad autorského práva týkajúce sa využitia ich diel modelmi AI. Úrad autorského práva teraz pripravuje usmernenia o tom, ako sa autorský zákon vzťahuje na éru AI.

Dilema údajov AI je zložitým problémom, ktorý zahŕňa nájdenie rovnováhy medzi inováciou a dodržiavaním práv tvorcov. Kým sa technologické spoločnosti snažia vyvíjať pokročilé systémy AI, hľadba dát bude pokračovať v evolúcii, čo povedie k trvajúcim debatám o etických a právnych hraniciach.

The source of the article is from the blog coletivometranca.com.br

Web Story