Možna pomanjkljivost besedilnih podatkov za razvoj umetne inteligence

Umjetni sistemi inteligencije bi se kmalu mogli suočiti sa značajnim izazovom zbog mogućeg istrošenja ljudski generiranih tekstualnih podataka, koji su ključni za njihovo unapređenje. Istraživačka grupa Epoch AI izvještava da bi već od 2026. godine, a najkasnije do 2032. godine, bunar javno dostupnih podataka za treniranje jezičnih AI modela mogao presušiti.

Autor studije, Tamay Besiroglu, sugerira da bez kontinuirane opskrbe autentičnim sadržajem napisanim od strane ljudi, održavanje trenutnog tempa razvoja AI može postati problematično. U kratkoročnoj perspektivi, tehnološke kompanije poput OpenAI, koja je razvila ChatGPT, i Google, natječu se za osiguranje i ponekad plaćanje kvalitetnih podataka, uključujući potpisivanje ugovora za pristup tekstualnom sadržaju s platformi poput Reddita i raznih vijesti.

Gledajući u budućnost, trenutno korišteni resursi novih blog postova, vijesti i komentara na društvenim mrežama možda neće biti dovoljni da održe putanju napretka u AI. Ovaj nedostatak može prisiliti kompanije da razmotre iskorištavanje privatnih i osjetljivih podataka, poput osobnih e-mailova ili SMS poruka, ili se oslanjaju na manje pouzdane sintetičke podatke generirane sami od strane chatbotova. Besiroglu ističe da postoji “ozbiljna prepreka” u tom pogledu.

Ova recenzirana studija trebala bi biti predstavljena na Međunarodnoj konferenciji o strojnom učenju u Beču ovog ljeta. Projekt Epoch je inicijativa neprofitne organizacije “Rethink Priorities” sa sjedištem u San Franciscu.

Besiroglu također navodi zajedničko shvaćanje među istraživačima AI-a da veliki napredak u performansama AI sistema može biti postignut proširenjem računalne snage i korištenjem velikih količina podataka s interneta. Prema istraživanju koje je proveo Epoch, tekstualni podaci uneseni u jezične AI modele približno se povećavaju 2,5 puta godišnje, dok se računalna moć povećava otprilike 4 puta svake godine.

Nicolas Papernot, asistent profesor računalnog inženjerstva na Sveučilištu u Torontu i istraživač u neprofitnom istraživačkom institutu za AI, koji nije bio uključen u studiju Epoch, spomenuo je važnost shvaćanja da izgradnja sve većih modela nije nužnost. Predložio je da modeli specijalizirani za određene zadatke mogu dovesti do efikasnijih AI sistema. Međutim, Papernot izražava zabrinutost oko treniranja generativnih AI sistema s AI-generiranim rezultatima, upozoravajući da to može dovesti do pogoršanja performansi, slično degradaciji informacija prilikom kontinuiranog kopiranja dokumenta.

Ključna pitanja i odgovori:

1. Zašto postoji potencijalni nedostatak tekstualnih podataka za razvoj AI-a?
Može doći do nedostatka zbog konačne količine javno dostupnih ljudski generiranih tekstova i etički prihvatljivih za treniranje AI sistema. S obzirom da ovi sistemi snažno ovise o velikim količinama podataka, povećana potražnja može nadmašiti produkciju novih ljudski generiranih sadržaja.

2. Što kompanije poput OpenAI i Google rade kako bi riješile ovaj potencijalni nedostatak?
Kompanije pokušavaju osigurati kvalitetne podatke putem partnerstava i ugovora s platformama koje imaju velike tekstualne skupove podataka, poput Reddita i raznih vijesti, kako bi osigurale stabilan priliv podataka za treniranje njihovih AI modela.

3. Koje su moguće alternative za treniranje AI-a osim ljudski generiranih tekstova?
Ako ljudski generirani tekstovi postanu rijetki, kompanije se mogu okrenuti privatnim i osjetljivim podacima, što izaziva etičke probleme, ili se osloniti na sintetičke podatke koje proizvodi AI, iako takav pristup može rezultirati smanjenjem performansi AI sistema.

Izazovi, kontroverze, prednosti/nedostaci:

Glavni izazov je kako održati kvalitetu i raznolikost podataka potrebnih za kontinuirano unapređenje AI modela bez kršenja privatnosti ili etičkih standarda. Glavna kontroverza uključuje pitanja privatnosti i korisničkog pristanka ako se iskorištavaju privatni tekstualni podaci.

Prednosti:
– Nastavak napretka u AI može dovesti do boljih AI asistiranih rješenja u raznim industrijama.
– Specializirani modeli za određene domene ili zadatke mogu poboljšati efikasnost i performanse.

Nedostaci:
– Nedostatak kvalitetnih podataka može rezultirati neadekvatnim modelima ili pristranošću zbog smanjene raznolikosti skupova podataka.
– Performanse AI-a mogu se pogoršati s vremenom ako se oslanjaju na sintetičke ili nižekvalitetne podatke.

Relevantne dodatne činjenice:
– Regulacije o zaštiti podataka, poput GDPR-a u Europi, mogu utjecati na dostupnost tekstualnih podataka za treniranje AI-a, što zahtijeva pažljivo razmatranje kako bi se osiguralo usklađenost.
– Napredak u tehnikama nenadziranog učenja i samo-učenja može djelomično ublažiti potrebu za velikim količinama označenih tekstualnih podataka.
– U tijeku je istraživanje učenja s malo primjera, gdje AI može učiti na znatno manjim skupovima podataka, što potencijalno smanjuje potrebu za velikim tekstualnim korpusima.

Povezane relevantne poveznice na teme su:
– Google AI
– OpenAI
– Rethink Priorities

Prednosti i nedostaci ove situacije moraju se pažljivo uravnotežiti, s posebnim osvrtom na privatnost, zakonska pitanja i etičke zabrinutosti, budući da žurba za akumulacijom podataka može doći s značajnim troškovima. Istraživači i developeri također moraju usredotočiti se na stvaranje modela koji su efikasniji s podacima, koji mogu dobro funkcionirati s manjim količinama podataka ili koristiti sintezu podataka na odgovoran način.