A.I. Development Challenges and Data Acquisition Strategies

Tehnoloogiaettevõtted nagu OpenAI, Google ja Meta seisavad silmitsi väljakutsetega vajaliku digitaalse teabe hankimisel oma tehnoloogia edendamiseks. See artikkel heidab valgust nendele ettevõtetele kasutatavatele strateegiatele, võimalikele reeglite ja seaduste rikkumistele ning kasvavale andmejanule A.I. tööstuses.

OpenAI, mida tuntakse võimsate A.I. mudelite poolest, sattus 2021. aasta lõpus varumisprobleemiga, kui nad olid ammendanud kõik veebis olevad mainekad ingliskeelsed tekstiallikad oma A.I. süsteemi treenimiseks. Selle tõkke ületamiseks töötasid OpenAI teadlased välja kõne tuvastamise tööriista Whisper. Tööriista eesmärk oli transkribeerida heli YouTube’i videodest, pakkudes seeläbi uut vestlusteksti, mis võiks suurendada nende A.I. süsteemi võimekust.

Siiski tekkis OpenAI-s mure YouTube’i reeglite võimaliku rikkumise pärast nende videote kasutamisel selle “iseseisva” rakenduse jaoks. Hoolimata muredest jätkas OpenAI meeskond koos Greg Brockmaniga, OpenAI president, üle miljoni tunni YouTube’i videote transkribeerimist. Saadud tekstid olid seejärel kasutusel GPT-4 koolitamiseks, ühe võimsaima A.I. mudeli maailmas ning uusima versiooni ChatGPT juturoboti alus.

Sarnaselt Meta (endine Facebook) juhtidele, juristidele ja inseneridele kaalus ettevõte kirjastusmaja Simon & Schuster ostmist. Pikemate kirjalike töödele juurdepääsu saamiseks arutas Meta autoriõigustega kaitstud andmete väljavõtmist erinevatest internetiallikatest. Mõnel juhul olid nad valmis silmitsi seisma võimalike kohtuasjadega, pigem kui läbirääkimiste pidamiseks litsentside osas kirjastajate ja sisuloojatega.

A.I. mudelite arendamine on viimastel aastatel läbi teinud olulise muutuse. Enne 2020. aastat toetusid mudelid nagu GPT-2 suhteliselt väikestele koolitusandmetele. Siiski, GPT-3 väljaandmisega, hakkasid teadlased kasutama oluliselt suuremaid andmekogumeid, tunnustades andmete hulga tähtsust mudelite tõhusaks koolitamiseks.

Kuna A.I. tööstus jätkab piiride nihutamist, on suure hulga andmete hankimine saanud oluliseks edasiste arengute jaoks. Ettevõtted nagu OpenAI ja Meta on valmis piire nihutama, võimalik, et painutades reegleid ja võttes endale õiguslikke riske, et rahuldada nende andmevajadusi. Arutelu eetiliste ja õiguslike aspektide üle andmete hankimisel A.I. tööstuses tõenäoliselt jätkub, kui tehnoloogia areneb.

Lisateabe saamiseks sellel teemal vaatamiseks võite viidata järgmistele allikatele:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

KKK:

Q: Mis on A.I.?
A: A.I. tähistab Kunstlikku Intellekti, mis viitab arvutisüsteemide arendamisele, mis suudavad teha ülesandeid, mis tavaliselt nõuavad inimeste intelligentsust.

Q: Mis on GPT-4?
A: GPT-4 on üks võimsamaid A.I. mudeleid, mille on välja töötanud OpenAI. See tähistab Generative Pre-trained Transformer 4, mida kasutatakse inimesetaolise teksti genereerimiseks antud käskude põhjal.

Q: Mis on ChatGPT ja Whisper?
A: ChatGPT on OpenAI arendatud juturobot, mis põhineb GPT mudelitel. Whisper on OpenAI loodud kõnetuvastustööriist, mis transkribeerib heli YouTube’i videodest.

The source of the article is from the blog xn--campiahoy-p6a.es