Kuidas andmevaegus mõjutab tehisintellekti arengut: uued väljakutsed ja lahendused

Tehisintellekti (AI) valdkond areneb kiiresti, populaarsust koguvad AI-toega vestlustööriistad nagu OpenAI ChatGPT. Siiski hoiatavad tööstusanalüütikud, et kõrgekvaliteetsete andmete nõudlus, mis on hädavajalik nende AI mudelite koolitamiseks, võib peagi ületada pakkumise, mis võib AI arengut edasi pidurdada.

Andmete puudusest tingitud väljakutse peitub peamiselt vajaduses suure hulga kõrgekvaliteetsete, mitmekesiste ja täpselt märgistatud andmete järele, mis esindavad reaalseid stsenaariume. Selliste andmete hankimine on ajamahukas protsess, mis hõlmab sageli valdkonna ekspertide käsitsi märgistamist ja kogumist erinevatest allikatest. Andmete kvaliteedi tagamiseks ja eelarvamuste kõrvaldamiseks on vajalik hoolikas kureerimine.

Andmete koolitamisega seotud väljakutset süvendab edasi keeruline autoriõiguste küsimus. AI ettevõtted peavad liikuma seaduse sätete, lubade ja sisufiltrite protsessi vahel, et vältida autoriõiguslike väljakutsete tekkimist andmete hankimisel.

Üks potentsiaalne lahendus andmeprobleemile seisneb paremate andmete jagamise võimaluste leidmises. Sisuloojad pole sageli valmis oma kõrgekvaliteetseid andmeid jagama, kas siis seetõttu, et nad soovivad hüvitist või tunnevad, et pakutavad hinnad ei peegelda andmete tegelikku väärtust. Autorlus tasulistele AI-vastustele võiks motiveerida sisuloojaid tasuta sisu pakkuma, et saada vastu brändi nähtavust või muid eeliseid. Selline lähenemine võiks luua õiglase turu, kus sisuloojad ja LLM-pakkujad saaksid andmeid tõhusalt rahaks teha.

Andmete vähesusega seotud muredele vaatamata väidavad mõned eksperdid, et andmete kvaliteet on olulisem kui nende kvantiteet, ehkki kvantiteet on endiselt tähtis. Andmemahtude suurenemisel tõuseb ka koolituse keerukus ja maksumus ning suureneb oht, et mudel jätab koolituse käigus tähelepanuta olulise info. Eksperdid soovitavad suunda rohkem valikulisele andmete koolitusviisile, kus algandmed puhastatakse, kontrollitakse ja duplitseeritakse hoolikalt. See protsess viiks generatiivsete mudelite koolitamiseni uute andmete genereerimise ja kontrollmudelite koolitamiseni loodud andmete kvaliteedi kontrollimiseks, luues kvaliteedi parandamise suletud ringi.

Kokkuvõttes sõltub tehisintellekti areng tugevalt kõrgekvaliteetsete andmete kättesaadavusest. Kuna nõudlus kvaliteetsete andmete järele jätkab kasvu, on oluline, et teadlased, tööstuse spetsialistid ja poliitikakujundajad tegeleksid andmeknappusega seotud väljakutsetega, tagades, et tehisintellekti areng ei jääks toppama.

Allikas: Näide.com

Korduma kippuvad küsimused (KKK)The source of the article is from the blog mendozaextremo.com.ar

Korduma kippuvad küsimused (KKK)
The source of the article is from the blog mendozaextremo.com.ar