Izazov održavanja apetita umjetne inteligencije za visokokvalitetnim podacima

Otkriveno je da AI sve više žudi za podacima

AI tvrtke suočavaju se s nadolazećim izazovom koji bi potencijalno mogao poremetiti njihov rast: manjkom visokokvalitetnog internetskog sadržaja za obuku njihovih sofisticiranih jezičnih modela. Za razliku od običnih korisnika interneta koji surfaju za zabavu, društvene veze i znanje, AI tvrtke koriste ogromne količine podataka kako bi poboljšale sposobnosti svojih jezičnih modela. Ti modeli, poput ChatGPT-a, duguju svoje znanje i vještine formulacije odgovora ogromnoj bazi podataka dobivenoj s weba.

Međutim, konačna priroda interneta znači da bi rezervoar podataka iz kojih bi se hranili ti AI modeli uskoro mogao početi presušivati. Tvrtke poput OpenAI i Google priznaju ovaj nadolazeći manjak, s procjenama koje sugeriraju iscrpljenje konzumabilnog visokokvalitetnog sadržaja u idućih nekoliko godina. Potražnja za takvim podacima tolika je da čak i povijesni internetski sadržaj nedostaje.

Uticaj Dosade podataka na napredak AI-a

Obuka velikih jezičnih modela (LLM-ova) poput GPT i Gemini zahtijeva monumentalnu količinu podataka, ne samo u obujmu već i u kvaliteti. AI tvrtke su izbirljive, filtrirajući ogromno more niskokvalitetnih podataka koji opterećuju internet kako bi izbjegle dezinformacije i loše napisani sadržaj koji ulaze u njihove sustave. Osiguravanje točnosti u interakcijama s korisnicima visoki je prioritet.

Osim toga, etički dileme sakupljanja podataka postavljaju značajne brige. Mnogi korisnici možda nisu svjesni da AI tvrtke već koriste njihove internetske podatke u obuke. Ova komercijalna upotreba osobnih podataka – kao što je Reddit prodaja sadržaja tvrtkama za AI – nastavlja se usprkos bitkama za prava korisnika na privatnost i zakonske zaštite.

Pogled prema alternativnim izvorima podataka za AI

Kao odgovor, OpenAI i ostali istražuju alternativne izvore podataka. Na primjer, OpenAI razmatra obuku svog modela GPT-5 koristeći transkripcije javnih videa s platformi poput YouTubea. Također, tvrtka radi na manjim, domenski specifičnim modelima i razmatra modele plaćanja za pružatelje visokokvalitetnih podataka.

Sintetički podaci: Dvosekli mač?

Skorašnji kontroverzni korak u industriji AI-a je potencijalna upotreba sintetičkih podataka. Iako ovaj pristup može omogućiti tvrtkama generiranje svježih skupova podataka koji oponašaju originale čuvajući pritom povjerljivost, praksa riskira precipitaciju ‘kolapsa modela’. Koliko inovativan bio, oslanjanje samo na sintetičke podatke moglo bi dovesti do stagnacije, budući da modeli ispljuju slične obrasce i odgovore, gubeći svoju jedinstvenost.

Unatoč neizvjesnostima, AI tvrtke ostaju optimistične oko potencijala sintetičkih podataka da zadovolje svoje obuke potrebe, pod uvjetom da mogu ublažiti povezane rizike. Mogućnost korištenja sintetičkih podataka bez narušavanja integriteta sustava pruža tračak nade u nastojanju da se održi napredak AI tehnologija.

Ključni izazovi u održavanju apetita AI-a za visokokvalitetnim podacima

Jedan od ključnih izazova povezanih s potražnjom za visokokvalitetnim podacima su etičke i pravne implikacije sakupljanja podataka. Visokokvalitetni podaci često znače podatke koji su detaljni, točni i odražavaju raznolik niz scenarija i jezika, ali dobivanje takvih podataka u dovoljnim količinama često uključuje uporabu osobnih ili privatnih podataka. Brige o privatnosti i mogućnost zloupotrebe podataka značajne su teme, postavljajući pitanja o pristanku i pravima pojedinaca čiji se podaci mogu koristiti za obuku AI sustava. Održavanje ravnoteže između potrebe za sveobuhvatnim skupovima podataka s potrebom za zaštitom osobne privatnosti predstavlja težak koračić.

Još jedan izazov je potencijal za pristranost i dezinformacije. Odabir visokokvalitetnih podataka znači filtriranje zavaravajućeg, netočnog ili niskokvalitetnog sadržaja. Međutim, pristranosti se mogu nenamjerno unijeti tijekom postupka filtriranja, što dovodi do AI modela koji mogu perpetuirati te pristranosti.

Prednosti i nedostaci potencijalnih rješenja

Alternativni izvori podataka
Prednosti:
– Raznolikost izvora podataka može obogatiti AI modele, nudeći širi perspektivu i nijansiranije razumijevanje.
– Uporaba podataka iz javne domene ili podataka s jasnim pristankom može ublažiti etičke i privatnost zabrinutosti.

Nedostaci:
– Podaci iz javne domene ili podaci za koje je dobiven pristanak mogu biti ograničeni ili manje raznoliki.
– Zahtijevanje pristanka za upotrebu podataka može značajno usporiti proces prikupljanja.

Sintetički podaci
Prednosti:
– Sintetički podaci mogu se generirati u velikim količinama i prilagoditi specifičnim potrebama, čineći ih skalabilnim rješenjem.
– Mogu pomoći izbjeći pitanja privatnosti budući da ne uključuju stvarne korisničke podatke.

Nedostaci:
– Sintetički podaci mogu unijeti umjetne pristranosti i nedostajati složenosti ljudski generiranog sadržaja.
– Ovisnost o sintetičkim podacima može dovesti do stagnacije i kolapsa modela ako podaci nisu dovoljno raznoliki.

Kontroverze

Upotreba osobnih podataka bez izričitog pristanka je kontroverzno pitanje. Na primjer, tvrtke poput Reddita koje prodaju korisnički sadržaj tvrtkama za AI pokrenule su rasprave o vlasništvu nad podacima i etičkoj uporabi. Druga kontroverza se vrti oko sintetičkih podataka, gdje potencijal za kolaps modela i zabrinutost zbog “neprirodnog” karaktera podataka doprinose strahovima o kvaliteti i pouzdanosti rezultata AI-a.

Povezani linkovi

OpenAI – OpenAI je tvrtka za istraživanje i razvoj AI-a koja je u samom vrhu razvijanja i obuke AI modela velikih razmjera.
Google – Google je multinacionalna korporacija koja sudjeluje u istraživanju AI-a i razvila je razne modele strojnog učenja i alate.

Sveukupno, izazovi u održavanju potrebe AI-a za visokokvalitetnim podacima su mnogostruki, uključujući tehničke, etičke i pravne dimenzije. Rješenja koja se istražuju imaju potencijal za prevladavanje ovih izazova, ali nisu bez svojeg skupa kompromisa. Pronalaženje ravnoteže koja promovira razvoj AI-a dok se poštuje privatnost i izbjegava pristranost glavna je briga AI tvrtki i cijelog društva.