Utakmica za podatke: Etički dileme u obuci AI

Sukladno popularnom uvjerenju, dostupnost digitalnih podataka za obuku AI modela nije beskonačna. Ova činjenica prisilila je glavne aktere u industriji poput OpenAI, Google-a i Meta-e da donesu teške odluke koje bi mogle potencijalno prekoračiti etičke granice i izazvati postojeće zakone. Ove spoznaje proizlaze iz istraživačkog članka nedavno objavljenog u The New York Times-u, osvjetljavajući poslovne izazove s kojima se susreću ove tvrtke.

Jedna od spornih praksi istaknutih u članku je OpenAI-eva transkripcija zvuka iz više od milijun sati YouTube videozapisa. Ovaj proces prikupljanja konverzacijskog teksta u svrhu obuke modela postavlja pitanja o mogućim povredama pravila YouTube-a. Zatim su transkripcijski podaci korišteni kao ulaz u moćni AI model GPT-4, koji je osnova najnovije verzije čatbota ChatGPT.

Meta, matična tvrtka Facebooka i Instagrama, također je bila na udaru zbog svojih akcija. Članak navodi da je Meta razmatrala kupnju izdavačke kuće radi dobivanja dugotvornih djela te je razgovarala o prikupljanju zaštićenih podataka s interneta. U njihovoj potrazi za podacima, raspravljali su o mogućnosti suočavanja s pravnim posljedicama umjesto dugotrajnog procesa pregovaranja o licencama s izdavačima, umjetnicima, glazbenicima i novinskom industrijom.

Google, poznat po svojem širokom spektru platformi koje prikupljaju velike količine informacija, suočio se s vlastitim izazovima. Tvrtka je transkribirala YouTube videozapise kako bi izdvojila tekst za obuku AI-a, što potencijalno krši autorska prava kreatora videozapisa. Članak nas podsjeća da se AI industrija snažno oslanja na online informacije, obuhvaćajući vijesti, fikcionalna djela, postove na forumima, članke Wikipedije, programske kodove, fotografije, podcastove i filmske isječke.

Želja za podacima nije ograničena na ove posebne prakse. Članak otkriva hitnost situacije tehnoloških tvrtki, navodeći da bi visokokvalitetni podaci dostupni na internetu mogli biti iscrpljeni već 2026. godine. Stopa kojom tvrtke koriste podatke nadmašuje njegovu proizvodnju. Ovaj prijetnja prisilila je ove tvrtke na utrku protiv vremena kako bi pronašle inovativne metode izvora podataka.

Često postavljana pitanja (FAQ):

P: Koja je etička dilema oko obuke AI?
O: Etička dilema proizlazi iz ograničene dostupnosti digitalnih podataka za obuku AI modela. Tvrtke se suočavaju s izazovom stjecanja dovoljno podataka bez potencijalnog kršenja prava privatnosti ili autorskih prava.

P: Kako tvrtke poput OpenAI, Google-a i Meta stječu podatke za AI modele?
O: Ove tvrtke koriste različite metode poput transkripcije zvuka s YouTube videozapisa, razmatranja kupnje izdavačkih kuća i proširivanja uvjeta usluge kako bi iskoristile javno dostupne dokumente, recenzije restorana i druge online materijale.

P: Zašto je utrka za podacima hitna?
O: Tehnološke tvrtke koriste podatke bržom stopom nego što se proizvode. Istraživački instituti predviđaju da bi visokokvalitetni podaci na internetu mogli biti iscrpljeni do 2026. godine.

P: Koje su potencijalne posljedice ovih praksi?
O: Tvrtke koje se bave ovim praksama izlažu se potencijalnim etičkim i pravnim posljedicama, uključujući kršenje autorskih prava i kršenje pravila platforme.

Dok AI industrija nastavlja procvat, potražnja za podacima postavlja složene izazove. Ključno je da dionici navigiraju kroz etičke dileme vezane uz akviziciju podataka, osiguravajući usklađenost s pravnim okvirom i poštujući prava stvaratelja sadržaja.

The source of the article is from the blog mivalle.net.ar