Novi izazovi u prikupljanju podataka za AI modele

U borbi za vođenje u području umjetne inteligencije (AI), tehnološke tvrtke suočene su s ključnim izazovom: potrebom za velikim količinama podataka kako bi obučile svoje AI modele. Da bi udovoljile toj potražnji, tvrtke poput OpenAI, Googlea i Meta poduzele su upitne akcije, odstupajući od korporativnih politika i čak graničeći se s pravnim granicama.

OpenAI je, primjerice, imao problem s dobavom podataka krajem 2021. kako bi obučili svoj najnoviji AI sustav, trebali su više podataka, ali su već iscrpili ugledne izvore engleskih tekstova na internetu. U odgovoru, istraživači OpenAI-a razvili su Whisper, alat za prepoznavanje govora koji je transkribirao audio zapise s YouTube videozapisa. Dobiveni konverzacijski tekst unesen je u njihov moćan AI model, GPT-4, kako bi se poboljšala njegova sposobnost.

Korištenje YouTube videozapisa za transkripciju teksta izazvalo je zabrinutost zbog potencijalnih kršenja pravila YouTubea. Međutim, OpenAI je nastavio i transkribirao preko 1 milijun sati videozapisa, koristeći tekstove kako bi unaprijedili svoj AI sustav. Greg Brockman, predsjednik OpenAI-a, osobno je sudjelovao u prikupljanju tih videozapisa.

Slično tome, Meta, matična tvrtka Facebooka i Instagrama, istraživala je različite metode za stjecanje potrebnih podataka. Interni sastanci otkrili su rasprave o kupnji Simon & Schustera, izdavačke kuće, kako bi dobili pristup dugim djelima. Također su razmatrali korištenje autorski zaštićenih podataka s interneta, čak i ako to znači suočavanje s pravnim posljedicama. Pregovaranje o licencama s izdavačima i tvorcima sadržaja percipirano je kao vremenski zahtjevno i nepraktično.

Google, još jedan važan sudionik u području AI, posegnuo je za transkripcijom YouTube videozapisa za prikupljanje podataka, potencijalno kršeći autorska prava tvoraca videozapisa. Tvrtka je također proširila svoje uvjete korištenja kako bi pristupila javno dostupnim Google dokumentima, recenzijama restorana na Google kartama i drugom online materijalu, kako bi ih koristili za AI proizvode.

Akcije ovih tehnoloških tvrtki ističu rastuću ovisnost o online informacijama za napredovanje u području AI. Tekstovi, slike, zvukovi i videozapisi stvoreni od strane ljudi postali su neprocjenjivi resursi za obuku AI sustava. Dok AI modeli postaju sve moćniji, količina podataka koja im je potrebna nastavlja rasti.

Tehnološke tvrtke suočavaju se s hitnim izazovom u pristupanju visokokvalitetnim podacima. Iako je internet nekad bio obilan izvor informacija, napredak u AI zahtijeva raznovrsnije i opsežnije repozitorije. Međutim, propisi poput zakona o privatnosti sprječavaju tvrtke poput Googlea i Meta da koriste sadržaj koji korisnici generiraju u svrhu AI-a.

Stručnjaci predviđaju da bi tehnološki divovi mogli iscrpiti dostupne visokokvalitetne podatke na internetu već do 2026. godine. Kao rezultat, tvrtke se suočavaju s istraživanjem alternativnih pristupa prikupljanju podataka, uključujući stvaranje sintetičkih informacija. To uključuje AI modele koji generiraju tekst, slike i kod kako bi učili iz vlastitog izlaza.

OpenAI, Google i Meta obradili su zabrinutosti vezane uz prikupljanje podataka, naglašavajući svoje napore za kuriranje i integriranje podataka u svoje AI modele. OpenAI tvrdi da svaki od njegovih AI modela posjeduje jedinstveni skup podataka, kuriran da unaprijedi njihovo razumijevanje svijeta. Google priznaje korištenje sadržaja s YouTubea, ali strogo unutar dogovora s tvorcima, dok Meta ističe svoju veliku kolekciju javno podijeljenih slika i videozapisa s Instagrama i Facebooka.

Rastuća uporaba kreativnih djela od strane AI tvrtki potaknula je pravne sporove oko autorskih prava i licenciranja. Brojne trgovačke grupe, autori i tvrtke podnijeli su komentare Uredu za autorska prava o korištenju njihovih djela od strane AI modela. Ured za autorska prava sada priprema smjernice o tome kako se autorsko pravo odnosi na eru AI-a.

Dilema podataka u području AI složeno je pitanje koje uključuje pronalaženje ravnoteže između inovacija i poštovanja prava tvoraca. Dok tehnološke tvrtke nastoje razviti napredne AI sustave, potraga za podacima će nastaviti evoluirati, rezultirajući kontinuiranim raspravama oko etičkih i pravnih granica.

Česta pitanjaThe source of the article is from the blog combopop.com.br

Česta pitanja
The source of the article is from the blog combopop.com.br