Väljakutse kõrgekvaliteetse andmete jätkusuutlikkuse tagamisel AI jaoks

Andmetejanuga kasvava tehisintellekti paljastamine

Tehisintellekti ettevõtted seisavad silmitsi läheneva väljakutsega, mis võib nende kasvu potentsiaalselt häirida: kõrgekvaliteedilise internetisisu puudus nende keerukate keelemudelite koolitamiseks. Erinevalt juhuslikest internetikasutajatest, kes sirvivad meelelahutuse, sotsiaalsete ühenduste ja teadmiste saamiseks, kasutavad tehisintellekti ettevõtted hiiglaslikke andmehulki oma keelemudelite võimete täiustamiseks. Nende mudelite, sealhulgas ChatGPT, teadmised ja vastuse koostamise oskused pärinevad veebist saadud hämmastavast andmebaasist.

Siiski tähendab interneti lõplik olemus, et varsti võib hakata lõppema andmeid, mida neile tehismudelitele sööta. Ettevõtted nagu OpenAI ja Google tunnistavad seda eelseisvat puudust, hinnangud näitavad, et tarbib high-quality sisu võidakse ära kasutada juba järgmise paari aasta jooksul. Nõudlus sellise andmete järele on nii suur, et isegi ajalooline internetisisu jääb lühikeseks.

Andmetaimi mõju tehisintellekti progressile

Suurte keelemudelite (LLM), näiteks GPT ja Gemini koolitamine nõuab tohutul hulgal andmeid, mitte ainult mahult, vaid ka kvaliteedilt. Tehisintellekti ettevõtted on valivad, filtreerides välja hiiglasliku hulga madala kvaliteediga andmeid, mis vaevavad internetti, et vältida valeteabe ja halvasti kirjutatud sisu sattumist nende süsteemidesse. Täpsuse tagamine kasutajate suhtluses on esmatähtis.

Lisaks tekitavad andmekorje eetilised dilemmaad olulisi muresid. Paljud kasutajad võivad mitte mõista, et tehisintellekti firmad võivad juba nende veebiandmeid koolituspaksusteks kasutada. Seda isikuandmete ärilist kasutamist – näiteks Reddit content müümist tehisintellekti ettevõtetele – jätkatakse ka võitluste keskel kasutaja privaatsuseõiguste ja õiguskaitsega.

Vaade internetiandmetest kaugemale tehisintellekti

Reageeringuna uurivad OpenAI ja teised alternatiivseid andmeallikaid. Näiteks kaalub OpenAI oma GPT-5 mudeli treenimist avalike videote transkriptsioonide abil sellistest platvormidest nagu YouTube. Ettevõte tegeleb ka väiksemate, domeenispetsiifiliste mudelitega ja kaalub maksemudeleid kõrgekvaliteetsete andmete pakkujatele.

Sünteetilised andmed: kahekordne mõõk?

Tulevane vastuoluline samm tehisintellekti tööstuses on sünteetiliste andmete potentsiaalne kasutamine. Kuigi see lähenemine võib võimaldada ettevõtetel luua värskeid andmekogumeid, mis jäljendavad algseid, säilitades samas konfidentsiaalsuse, võib praktika riskida “mudeli kokkukukkumisega”. Innovatiivne kui see on, ainult sünteetilistele andmetele toetumine võiks viia stagnatsioonini, kui mudelid korduvad sarnaseid mustreid ja vastuseid, kaotades oma ainulaadsuse.

Vaatamata ebakindlustele jäävad tehisintellekti ettevõtted lootusrikkaks sünteetiliste andmete potentsiaali suhtes nende koolitusvajaduste rahuldamiseks, eeldusel et nad suudavad leevendada kaasnevaid riske. Võimalus kasutada sünteetilisi andmeid süsteemi eetilisust häirimata pakub lootusetundelist sammukest teele, et säilitada tehisintellektitehnoloogiate arengut.

Põhiväljakutsed kvaliteetsete andmete tehisintellekti nälja jätkusuutlikkuses

Üks põhiväljakutseid kõrgekvaliteedilise andmete nõudmisega seotud eetilistes ning õiguslikes tagajärgedes on andmete korjamise eetilised ja õiguslikud tagajärjed. Kõrgekvaliteediline andmed tähendavad sageli üksikasjalikke, täpseid ja erinevate stsenaariumide ja keelte rikkalik kajastust, kuid selliste andmete hankimine piisavates kogustes hõlmab sageli isikuandmete või privaatsete andmete kasutamist. Privaatsuse mured ja andmete võimalik väärkasutamise võimalikkus on olulised küsimused, tekitades küsimusi nõusoleku ja nende isikute õiguste kohta, kelle andmeid võidakse kasutada tehisintellekti süsteemide treenimiseks. Tasakaalu leidmine vajaliku ulatusega andmekomplektide ja isikliku privaatsuse kaitse vajaduse vahel on keeruline väljakutse.

Teine väljakutse on väheneva kalduvuse ja valeinformatsiooni potentsiaal. Kõrgekvaliteetse andmete valimine tähendab eksitava, vale või madala kvaliteediga sisu tuvastamist. Siiski võivad tõrjumisprotsessi käigus tuginetud kallisused kogemata sisse tuua, luues tehisintellekti mudelid, mis võivad neid kalleid säilitada.

Potentsiaalsete lahenduste eelised ja puudused

Alternatiivsed andmeallikad
Eelised:
– Andmeallikate mitmekesistamine võib rikastada tehisintellekti mudeleid, pakkudes laiemat vaatenurka ja nüansirikkamat mõistmist.
– Avalikust domeenist pärit andmete või selgelt antud nõusolekuga andmete kasutamine võib leevendada eetilisi ja privaatsuse muresid.

Puudused:
– Avalikust domeenist pärit andmete või nõusoleku saanud andmete kättesaadavus võib olla piiratud või vähem mitmekesine.
– Andmete kasutamiseks nõusoleku nõudmine võib kogumisprotsessi märkimisväärselt aeglustada.

Sünteetilised andmed
Eelised:
– Sünteetilisi andmeid saab luua suurtes kogustes ja kohandada konkreetsete vajadustega, muutes selle skaalatavaks lahenduseks.
– See võib aidata vältida privaatsusküsimusi, kuna selles ei osale reaalseid kasutajaandmeid.

Puudused:
– Sünteetilised andmed võivad sisse tuua kunstlikke kalleid ja mitmekesisuse puudumist inimeste loodud sisust.
– Sünteetiliste andmete sõltumine võib viia stagnatsioonini ja mudeli kokkukukkumiseni, kui andmed pole piisavalt mitmekesised.

Kontroversid

Isiklikke andmeid ilma selge nõusolekuta kasutamine on tuline küsimus. Näiteks ettevõtete nagu Reddit kasutajate sisu müümine tehisintellekti ettevõtetele on tekitanud arutelusid andmete omandiõiguse ja eetilise kasutamise üle. Teine vastuolu keerleb sünteetiliste andmete ümber, kus mudeli kokkukukkumise võimalus ja mure “ebanormaalse” andmete olemuse üle kütavad hirme tehisintellekti väljundite kvaliteedi ja usaldusväärsuse ümber.

Seotud lingid

OpenAI – OpenAI on tehisintellekti uurimis- ja rakendusettevõte, mis on esirinnas suurte tehisintellekti mudelite arendamisel ja koolitamisel.
Google – Google on rahvusvaheline ettevõte, mis on seotud tehisintellekti uurimisega ja on välja töötanud mitmesuguseid masinõppe mudeleid ja tööriistu.

Üldiselt on kvaliteetsete andmete vajaduse säilitamise tehisintellekti ees seisvad väljakutsed mitmetahulised, hõlmates tehnilisi, eetilisi ja õiguslikke aspekte. Uuritavad lahendused suudavad neid väljakutseid ületada, kuid ei tule ilma oma kaubanduslike kompromissideta. Tasakaalu leidmine, mis soosiks tehisintellekti arengut, austaks privaatsust ja väldiks kalleid, on tehisintellekti ettevõtete ja kogu ühiskonna peamine mure.