Utjecaj Sintetičkih Podataka na Razvoj Umjetne Inteligencije

Kompanije koje se bave umjetnom inteligencijom (AI) suočavaju se s značajnom poteškoćom u dobivanju visokokvalitetnih podataka za obuku, prema nedavnom izvještaju. Ova poteškoća potaknula je ove kompanije da istraže različite metode za prevladavanje prepreke, čak i ako to znači zaranjanje u mutne teritorije zakona o autorskim pravima u području AI.

Jedna istaknuta tvrtka, OpenAI, našla se u očajnoj potrebi za podacima za obuku te je razvila svoj model audiosnimki Whisper kao rješenje. Ovaj model transkribirao je preko milijun sati YouTube videozapisa, koji su zatim korišteni za obuku GPT-4, najnaprednijeg jezičnog modela tvrtke OpenAI. Iako je OpenAI priznao potencijalne pravne implikacije ovog pristupa, smatrao je da se uklapa u fair use. Značajno je da je predsjednik OpenAI-a, Greg Brockman, osobno nadgledao prikupljanje videozapisa korištenih za obuku.

Odgovarajući na ove tvrdnje, glasnogovornica OpenAI-a, Lindsay Held, izjavila je da tvrtka stvara “jedinstvene” skupove podataka za svaki od svojih modela kako bi poboljšala njihovo razumijevanje svijeta. Held je objasnila da OpenAI koristi različite izvore podataka, uključujući javno dostupne podatke i partnerske odnose koji nisu javni, istovremeno istražujući generiranje sintetičkih podataka. Tvrtka je iscrpila svoje postojeće zalihe korisnih podataka 2021. godine i počela razmatrati transkripciju YouTube videozapisa, podcasta i audioknjiga, zajedno s drugim resursima poput računalnog koda s Githuba, baza podataka poteza u šahu te obrazovnog sadržaja s Quizleta.

Google, još jedan važan igrač u području AI-a, također se suočio s izazovima u dobivanju podataka za obuku. Matt Bryant, glasnogovornik tvrtke, odgovorio je na izvještaje da je OpenAI koristio sadržaj s YouTube-a u svrhu obuke. Bryant je istaknuo da je neovlašteno pretraživanje ili preuzimanje sadržaja s YouTube-a strogo zabranjeno prema njihovim uvjetima korištenja. Google je priznao obučavanje svojih modela na odabranom sadržaju s YouTube-a sukladno dogovorima sklopljenim s tvorcima na YouTubeu. Dodatno, tvrtka je izmijenila svoju politiku privatnosti kako bi proširila načine na koje može koristiti podatke potrošača, poput integracije u uredske alate poput Google Docs.

Meta, nekada poznata kao Facebook, također je naišla na slične prepreke u dobivanju visokokvalitetnih podataka za obuku. Snimci dobiveni od The New York Timesa otkrili su rasprave unutar Meta-ovog tima za AI o neovlaštenoj uporabi autorskih djela. Meta je istraživala različite strategije kako bi stigla do OpenAI-a, uključujući mogućnost kupovine licenci za knjige ili čak akviziciju velike izdavačke kuće. Promjene vezane uz privatnost koje je Meta napravila kao odgovor na skandal s tvrtkom Cambridge Analytica također su ograničile njenu sposobnost korištenja podataka potrošača.

Kompanije koje se bave AI-jem, uključujući Google, OpenAI i druge, bore se s sve manjom dostupnošću podataka za obuku svojih modela, koji se u velikoj mjeri oslanjaju na obujam podataka za poboljšanje. Brza potrošnja novog sadržaja može nadmašiti sposobnost dobivanja svježih podataka za obuku do 2028. godine. U svjetlu ovog izazova, moguća rješenja spomenuta u nedavnim izvještajima uključuju obuku modela na sintetičkim podacima generiranim pomoću njihovih vlastitih modela ili primjenu tehnika učenja po planovima. Međutim, učinkovitost ovih pristupa još nije dokazana.

Često Postavljana Pitanja

1. Zašto se kompanije koje se bave AI-jem bore s dobivanjem visokokvalitetnih podataka za obuku?
Kompanije koje se bave AI-jem u velikoj su mjeri ovisne o visokokvalitetnim podacima za obuku kako bi poboljšale svoje modele. Međutim, dostupnost takvih podataka sve je manja, što predstavlja značajan izazov za ove tvrtke.

2. Kako OpenAI rješava problem nedostatka podataka?
OpenAI je posegnuo za različitim metodama kako bi riješio nedostatak podataka za obuku. Jedan pristup uključivao je razvoj modela transkripcije audiosnimki nazvanog Whisper, koji je transkribirao milijune sati YouTube videozapisa kako bi obučio svoj jezični model. Međutim, ovaj je pristup izazvao potencijalne pravne zabrinutosti.

3. Kako Google reagira na tvrdnje o neovlaštenom korištenju sadržaja s YouTube-a?
Google strogo zabranjuje neovlašteno pretraživanje ili preuzimanje sadržaja s YouTube-a, kako je navedeno u njihovim uvjetima korištenja. Iako tvrtka priznaje obučavanje svojih modela na odabranom sadržaju s YouTube-a, to čini sukladno dogovorima sklopljenim s kreatorima na YouTubeu.

4. Kako AI kompanije istražuju alternativna rješenja za prevladavanje nedostatka podataka?
AI kompanije razmatraju različite strategije kako bi riješile izazov nedostatka podataka. Neka potencijalna rješenja uključuju obuku modela na sintetičkim podacima generiranim pomoću vlastitih modela ili usvajanje tehnika učenja po planovima, gdje se modelima pružaju visokokvalitetni podaci na uređen način radi poboljšanja njihovog razumijevanja.

Izvori:

The New York Times
The Wall Street Journal
The Verge
Getty Images

Autor: [Vaše Ime], zaljubljenik u tehnologiju i pisac s strasti prema novim tehnologijama.

The source of the article is from the blog lokale-komercyjne.pl