Jezik: sl. Naslov: Jezikovni modeli umetne inteligence se soočajo s potencialno pomanjkanjem podatkov za učenje

Nova doba potrošnje informacij se bliža, sa predviđanjem da bodo AI sistemi podobni ChatGPT izčrpali bilijone besedil dostopnih na internetu v prihodnjem desetletju. Raziskovalna skupina Epoch AI ocenjuje, da bi lahko javno dostopni podatki za treniranje AI modelov jezikov izčrpali med leti 2026 in 2032.

Študija primerja naval na besedilne podatke z ‘zlate mrzlice,’ prikazuje sliko, kjer bi lahko AI soočal z izzivi pri ohranjanju napredka, ko bi bile rezerve besedil, ki jih ustvarjajo ljudje, izčrpane. Tehnološka podjetja kot sta OpenAI in Google trenutno tekmujejo, da bi si zagotovili visokokakovostne vire podatkov za treniranje njihovih naprednih jezikovnih modelov. Sklepajo se posli, da bi imeli koristi od tokov povedi iz forumov, kot je Reddit, in tradicionalnih medijskih virov.

Ker se horizont približuje, količina novih blogov, novičarskih člankov in objav na družbenih omrežjih verjetno ne bo zadoščala za nadaljevanje trenutne razvojne poti AI. To lahko pritiska podjetja, da dostopajo do bolj občutljivih podatkov, kot so e-sporočila ali besedilna sporočila, ali se zanesejo na manj zanesljive “sintetične podatke,” ki jih ustvarjajo sami klepetalni roboti.

Raziskovalci iz Epoch AI po nadaljnji raziskavi predvidevajo, da bi lahko javno besedilni podatki zmanjkali v naslednjih dveh do osmih letih, kljub izboljšavam pri učinkovitejši uporabi obstoječih podatkov in pojavu tehnik, ki se izogibajo ‘pretreniranju’ modelov na istih naborih podatkov.

Hrepenenje AI po besedilu je opazilo letno povečanje 2,5-krat večje količine podatkov, ki jih prenaša v jezikovne modele. Hkrati se računska moč povečuje približno štirikrat letno. Te ugotovitve bodo predstavljene na prihajajoči Mednarodni konferenci o strojnem učenju v Dunaju, Avstrija.

Razprava o tem, ali je ta podatkovna zataknjenost zaskrbljujoča ali ne, se nadaljuje. Nicolas Papernot, s Univerze v Torontu in Inštituta Vector za umetno inteligenco, poudarja, da je pomembno upoštevati, da morda vedno večji modeli niso potrebni. Predlaga, da bi lahko bolj sofisticirani AI sistemi sledili iz bolj specializiranega treniranja za specifične naloge. Kljub temu se pojavijo pomisleki, ko se AI sistemi ponovno trenirajo na lastnih izhodih, kar lahko pripelje do ‘zrušitve modela’ z nezadovoljivi rezultati.

Papernot primerja treniranje na AI-generiranih podatkih s kopiranjem kopirnega dela, kjer se podrobnosti izgubijo, potencialno vgrajuje obstoječe pristranskosti in napake globoko v informacijski ekosistem.

Čeprav študija Epoch razkriva, da plačevanje milijonom ljudi za proizvodnjo besedil za AI modele ni izvedljiva rešitev za izboljšanje tehnične uspešnosti, nekatera podjetja raziskujejo proizvodnjo velikih količin sintetičnih podatkov za trening. Sam Altman, izvršni direktor OpenAI, je namignil, da podjetje eksperimentira s to pristopom pri delu na naslednji generaciji jezikovnih modelov GPT.

Pomanjkanje podatkov za AI jezikovne modele postavlja več pomembnih vprašanj, izzivov in kontroverz:

1. Kakšna so potencialna tveganja uporabe občutljivih podatkov za trening AI?
2. Kako bi pomanjkanje podatkov vplivalo na razvoj AI jezikovnih modelov?
3. Ali obstajajo alternativni pristopi za treniranje AI jezikovnih modelov brez obsežnih naborov podatkov?

Ključni izzivi in kontroverze vključujejo ustvarjanje “sintetičnih podatkov”, kakovost in raznolikost podatkov ter obvladljivost pri treningu modelov.

Prednosti in slabosti trenutnega trenda razvoja AI jezikovnih modelov so povezane z večjimi zmogljivostmi AI pri razumevanju in generiranju človeku podobnih besedil, potencialnimi izboljšavami v širokem nizu panog ter povečano učinkovitostjo preko avtomatizacije nalog, ki zahtevajo obdelavo naravnega jezika.

Slabosti vključujejo odvisnost od obsežnih naborov podatkov, ki bi lahko postali redki ali etično vprašljivi za pridobitev, okoljski vpliv zaradi povečane porabe energije za treniranje masivnih modelov ter tveganje za utrjevanje pristranosti in zmanjšanje kakovosti izhodov AI s sintetičnimi podatki.