Napredak umjetne inteligencije: Izazovi i potrebe za ogromnim količinama podataka

U utrci za razvojem naprednih modela umjetne inteligencije (AI), vodeće tehnološke tvrtke poput OpenAI, Google i Meta koriste kontroverzne metode za stjecanje ogromnih količina podataka. Sa razvojem AI tehnologije, potražnja za velikim količinama visokokvalitetnih podataka je porasla, što je potaknulo ove tvrtke da istraže nove načine prikupljanja podataka.

Prema nedavnom izvještaju, OpenAI je koristio više od milijun sati YouTube videozapisa kako bi trenirao svoj moćan jezični model, GPT-4. Umjesto da izravno koristi videozapise, OpenAI je koristio alat za prepoznavanje govora nazvan Whisper kako bi transkriptirao sadržaj, generirajući novi konverzacijski tekst. Iako je ovaj pristup izazvao zabrinutost zbog sukladnosti s pravilima YouTube platforme, budući da platforma ograničava neovisne aplikacije od korištenja svojih videozapisa, OpenAI je pronašao način za transkripciju sadržaja.

Slično tome, i Google i Meta, matična tvrtka Facebooka i Instagrama, također su otkriveni korištenje kontroverznih izvora podataka. Izvještaj sugerira da Google transkribira YouTube videozapise za obuku AI, potencijalno kršeći zakone o autorskim pravima, te je čak promijenio svoje uvjete korištenja kako bi pristupio više sadržaja koje korisnici generiraju. Meta je istražila mogućnost kupnje tvrtke Simon & Schuster kako bi dobila pristup ogromnoj knjižnici knjiga i razmatrala korištenje autorskih internetskih podataka, unatoč etičkim i pravnim implikacijama.

**Količina Podataka i Performansa AI**

Učinkovitost AI modela, posebno u generiranju tekstova, slika, zvukova i videozapisa sličnih ljudskima, uvelike ovisi o količini podataka na kojima se treniraju. Nesmanjena potražnja za visokokvalitetnim podacima u AI industriji izazvala je spekulacije da bi tehnološke tvrtke mogle iscrpiti dostupne internetske podatke već do 2026. To ističe važnu ulogu prikupljanja podataka u guranju granica mogućnosti AI.

**Reakcije kompanija**

OpenAI je odgovorio na zabrinutosti izjavom da se svaki od njihovih AI modela trenira na jedinstvenom skupu podataka, ističući potrebu za održavanjem konkurentnosti u istraživanju. Google je s druge strane priznao da treniraju svoje AI modele na nekim sadržajima s YouTubea, ali razjasnio je da to čine u skladu s dogovorima s autorima sadržaja. Dalje su pojasnili da se podaci iz uredskih aplikacija ne koriste izvan eksperimentalnih programa. Meta ističe svoju predanost integraciji AI-a u svoje usluge iskorištavajući milijarde javno dijeljenih slika i videozapisa.

**FAQ**

1. **Zašto tehnološke tvrtke poput OpenAI-a i Googlea trebaju ogromne količine podataka za obuku svojih AI modela?**
Tehnološke tvrtke oslanjaju se na velike količine podataka za obuku AI modela jer performanse i preciznost ovih modela značajno rastu s količinom podataka na kojima su trenirani. Više podataka omogućava AI modelima učenje uzoraka, izvođenje predviđanja i generiranje realističnijih i ljudskijih izlaza.

2. **Koje su kontroverze oko prikupljanja podataka od strane ovih tehnoloških divova?**
Kontroverze nastaju kada tehnološke tvrtke koriste podatke s izvora poput YouTubea bez izričitog pristanka ili potencijalno kršeći zakone o autorskim pravima. Postoje zabrinutosti oko etičkih implikacija takvih praksi i utjecaja na privatnost korisnika i prava intelektualnog vlasništva.

3. **Kako tehnološke tvrtke adresiraju ove zabrinutosti?**
OpenAI tvrdi da je svaki od njihovih AI modela treniran na jedinstvenim setovima podataka kako bi održali konkurentnost. Google tvrdi da ima dogovore s autorima sadržaja o korištenju YouTube sadržaja i ističe da se podaci iz uredskih aplikacija ne koriste izvan eksperimentalnih programa. Meta se fokusira na iskorištavanje javno dijeljenih slika i videozapisa dok priznaje pravne i etičke razmatranja pristupa autorskim podacima.

**Izvori:**
– Novi list: link
– Večernji list: link

The source of the article is from the blog aovotice.cz