Tehnologiile care Schimbă Lumea: Cum se Fac Avansuri în Inteligența Artificială Prin Noi Frontiere în Căutarea Datelor

În competiția pentru a conduce lumea în domeniul inteligenței artificiale (A.I.), companii tech precum OpenAI, Google și Meta se confruntă cu provocări în obținerea datelor digitale necesare pentru a-și dezvolta tehnologia. Acest articol aduce în lumină strategiile la care recurg aceste companii, posibilele lor încălcări ale regulilor și legilor, precum și dorința crescândă pentru date în industria A.I.

OpenAI, cunoscută pentru modelele sale puternice de A.I., a întâmpinat o problemă de aprovizionare la sfârșitul anului 2021 când a epuizat toate sursele reputabile de texte în limba engleză de pe internet pentru antrenarea sistemului său de A.I. Pentru a depăși această barierră, cercetătorii OpenAI au dezvoltat o unealtă de recunoaștere vocală numită Whisper. Scopul acestei unelete a fost de a transcrie sunetul din videoclipurile YouTube, furnizând astfel texte de conversație noi care ar putea îmbunătăți capacitățile sistemului lor de A.I.

Cu toate acestea, au apărut îngrijorări în cadrul OpenAI cu privire la posibila încălcare a regulilor YouTube prin folosirea videoclipurilor lor pentru această aplicație „independentă”. În ciuda îngrijorărilor, o echipă OpenAI, condusă de Greg Brockman, președintele OpenAI, a continuat să transcrie peste un milion de ore de videoclipuri YouTube. Textele rezultate au fost apoi folosite pentru a antrena GPT-4, unul dintre cele mai puternice modele A.I. din lume și fundația pentru cea mai recentă versiune a chatbot-ului ChatGPT.

Similar, la Meta (fosta Facebook), managerii, avocații și inginerii companiei au luat în considerare achiziționarea editurii Simon & Schuster pentru a obține acces la opere de lungime mare. Compania a discutat, de asemenea, despre extragerea de date protejate de drepturi de autor din diverse surse de internet. În unele cazuri, erau pregătiți să se confrunte cu posibile procese legale în loc să negocieze licențe cu editorii și creatorii de conținut.

Dezvoltarea modelelor de A.I. a cunoscut o schimbare semnificativă în ultimii ani. Înainte de 2020, modele precum GPT-2 se bazau pe cantități relativ mici de date de antrenament. Cu toate acestea, o schimbare semnificativă a avut loc odată cu lansarea GPT-3, în care cercetătorii au început să includă seturi de date mult mai mari pentru a antrena modelele eficient.

Pe măsură ce industria A.I. continuă să își depășească limitele, achiziționarea unor cantități mari de date a devenit crucială pentru noi progrese. Companii precum OpenAI și Meta sunt dispuse să-și împingă limitele, poate încălcând regulile și asumând riscuri legale pentru a-și satisface cerințele de date. Dezbaterile privind aspectele etice și legale ale obținerii datelor în industria A.I. probabil vor continua pe măsură ce tehnologia avansează.

Pentru a explora mai departe acest subiect, puteți consulta sursele de mai jos:
– The New York Times: www.nytimes.com
– Epoch: www.epoch.com

FAQ:The source of the article is from the blog scimag.news

FAQ:
The source of the article is from the blog scimag.news