Ietekme uz datu kvalitāti, apmācot mākslīgos intelekta algoritmus

Palielinās zinātniskie pētījumi, kas risina jautājumu par mākslīgā intelekta modeļu pakļaušanu atkārtotai apmācībai, izmantojot galvenokārt ar šo tehnoloģiju radītus datus, rezultātā radot arvien konfliktējošāku saturu. Modeļus, kas atkarīgi no ģeneratīvās mākslīgās intelekta rīkiem, piemēram, programmas “ChatGPT”, nepieciešams apmācīt, izmantojot milzīgas datu apjomus.

Tas rada parādību, ko apraksta kā “pašaapēšanās”, kur mākslīgais intelekts barojas pats ar sevi, izraisot modeļu sabrukumu un rīku nesakarīgas informācijas rašanos, kā nesen publicētā rakstā zinātniskajā žurnālā “Nature” atklājās.

“Pīķa” un “Stenforda” universitāšu pētnieki nonāca līdz līdzīgai secinājumam, pētot AI modeļus, kas ģenerē attēlus, piemēram, “Middleground” un “Dali-Ai”. Dati, kas “ģenerēti ar mākslīgo intelektu”, pievienošana modeļiem rezultēja nesakritībām, līdzīgi kā slimībai “Trakā govs”.

Uzņēmumi bieži izmanto “sintētiskos datus”, lai apmācītu savas programmas, jo tas ir viegli pieejams, pieejams un lētāks salīdzinājumā ar cilvēku veidotajiem datiem, kā norādījuši jomas eksperti.

Tāpat kā Trakās govju slimības krīze ietekmēja gaļas ražošanu 1990. gadā, zemu pārbaudītu paaudzēm vēlāk varētu apdraudēt zaudējumu sindroms, kas ietekmēs datu kvalitāti un daudzveidību visa pasaulē, un ar to pakārtotu uz vērsta mākslīgā intelekta nozarē, kura vērtēta miljardu dolāru vērtībā.

IZPĒTĪTIE MAIŅPAKALPOJUMA STARPSAISTĪBA STAR AN IZMANTOTĀJU MAIŅPASPAULĪTE
Mākslīgā intelekta (MI) apmācība spēlē būtisku lomu MI modeļu spēju veidošanā. Lai gan iepriekšējais raksts uzsvēra bažas par atkārtotu apmācību ietekmi uz datu kvalitāti, šim jautājumam ir papildu aspekti, kas pieprasa tuvāku izpēti.

Galvenie jautājumi:
1. Kā apmācības dati ietekmē MI modeļu veiktspēju?
2. Kādas ir ilgtermiņa sekas pašapēšanās MI modeļos?
3. Kādus stratēģiskus var īstenot, lai mazinātu datu kvalitātes problēmas apmācības laikā?

Papildu inženierzināšanas:
VIenīgais pamatuzdevums, ko saistītus ar MI apmācību, ir nepieciešamība pēc daudzveidīgiem un pārstāvīgiem datu kopumiem. Lai novērstu priekšnostatījumus un uzlabotu MI modeļu izturību, ir būtiski nodrošināt, ka apmācības dati ietver plašu scenāriju un robežu gadījumu klāstu.

Turklāt ģeneratīvo AI rīku un apmācības datu mijiedarbība ir būtiska pētniecības joma. Lai gan rīki kā “ChatGPT” piedāvā lieliskas spējas, pārmērīga atkarība no tiem datu ģenerēšanai var novest pie neprecizitātēm un nesakarīgas informācijas saglabāšanas iekšienē MI sistēmās.

Priekšrocības un trūkumi:
Priekšrocības:
– Efektīva apmācība: MI apmācība, izmantojot sintētiskus datus, var būt izmaksu efektīva un laika efektīva.
– Mērogojamība: Sintētiskie dati piedāvā mērogojamības priekšrocības salīdzinājumā ar manuāli sagatavotiem datu kopumiem.
– Inovācija: MI apmācība, izmantojot augstā līmeņa rīkus, var veicināt inovāciju un radošumu modeļu attīstībā.

Trūkumi:
– Pārdomas un neprecizitātes: Sintētiski dati ne vienmēr var precīzi atveidot reālu scenāriju, kas ved pie priekšnojumu MI modeļos.
– Datu kvalitātes jautājumi: Pārmērīga atkarība no ģeneratīvo AI rīku datu radīšanai var kompromitēt MI sistēmu kvalitāti un uzticamību.
– Regulatora bažas: Sintētisko datu izmantošana kritiskās lietojumprogrammās var izraisīt regulatoras un etiskās dilemmas attiecībā uz datu integritāti un caurskatāmību.

Saistītās saites:
Nature
Rice University
Stanford University

Data Quality and AI