Modelării lingvistice AI se confruntă cu potențiala lipsă de resurse de formare a datelor

O nouă eră a consumului de informații este pe orizont, deoarece sistemele AI similare cu ChatGPT sunt prognozate să epuizeze trilioanele de cuvinte disponibile pe internet în deceniul următor. Grupul de cercetare Epoch AI estimează că datele de instruire public disponibile pentru modelele AI de limbaj ar putea seca între 2026 și 2032.

Studiul asemuiește valul pentru datele de text cu o „goană după aur”, transmitând o imagine în care AI-ul ar putea întâmpina provocări în menținerea progresului odată ce rezervele de texte generate de oameni se epuizează. Companii tehnologice precum OpenAI și Google sunt în prezent într-o cursă pentru securizarea surselor de date de înaltă calitate pentru instruirea modelelor lor sofisticate de limbaj. Sunt semnate acorduri pentru a beneficia de fluxuri de propoziții din forumuri precum Reddit și din surse media tradiționale de știri.

Pe măsură ce orizontul se apropie, cantitatea de noi bloguri, articole de știri și postări pe rețelele de socializare probabil nu va fi suficientă pentru a continua traiectoria actuală de dezvoltare a AI-ului. Acest lucru ar putea determina companiile să acceseze date mai sensibile, cum ar fi e-mailuri sau mesaje text, sau să se bazeze pe date „sintetice” mai puțin fiabile create de roboții de chat.

Cercetătorii Epoch AI, după o analiză mai detaliată, au prevăzut că datele publice de text s-ar putea epuiza în următorii doi până la opt ani, în ciuda îmbunătățirilor în utilizarea mai eficientă a datelor existente și a apariției tehnicilor de evitare a „supraantrenării” modelelor pe aceleași seturi de date.

Apetitul vorace al AI-ului pentru text a dus la o creștere anuală de 2,5 ori a cantității de date de text transferate modelelor AI de limbaj. În același timp, puterea de calcul crește aproximativ de patru ori în fiecare an. Aceste informații vor fi prezentate la viitorul Congres Internațional de Învățare Automată de la Viena, Austria.

Dezbaterea privind dacă această blocare a datelor necesită îngrijorare este actuală. Nicolas Papernot, de la Universitatea din Toronto și Institutul Vector pentru Inteligență Artificială, subliniază că este important să ne amintim că modelele din ce în ce mai mari s-ar putea să nu fie necesare. El sugerează că sistemele AI mai sofisticate ar putea rezulta dintr-o instruire mai specializată pe sarcini specifice. Cu toate acestea, apar preocupări atunci când reantrenezi sistemele AI pe propriul lor output, ceea ce ar putea duce potențial la un „colaps de model” cu rezultate subperformante.

Papernot compară instruirea pe date generate de AI cu copierea unei fotocopii, în care detaliile sunt inevitabil pierdute, putând îngropa potențial prejudecăți și erori existente mai adânc în ecosistemul de informații.

În timp ce studiul Epoch dezvăluie că plătirea a milioane de oameni pentru a produce texte pentru modelele AI nu este o soluție fezabilă pentru o performanță tehnică îmbunătățită, unele companii explorează producerea unor cantități mari de date sintetice pentru instruire. Sam Altman, CEO al OpenAI, a indicat că compania experimentează cu această abordare în timp ce lucrează la următoarea generație de modele de limbaj GPT.

Posibila lipsă de date pentru modelele AI de limbaj ridică mai multe întrebări importante, provocări și controverse:

1. Care sunt riscurile potențiale ale utilizării datelor sensibile pentru instruirea AI-ului?
Pentru a face față lipsei de date publice de text, companiile ar putea lua în considerare accesarea datelor sensibile, cum ar fi comunicările private. Cu toate acestea, aceasta ridică probleme semnificative de confidențialitate și etică. Utilizarea unor astfel de date ar putea duce la acces neautorizat la informații personale și încălcări ale confidențialității, generând întrebări despre consimțământul utilizatorului și posibila utilizare necorespunzătoare a datelor.

2. Cum ar putea o lipsă de date afecta dezvoltarea modelelor AI de limbaj?
O lipsă ar putea împiedica progresul modelelor AI mai sofisticate, care depind în mod semnificativ de seturi de date mari pentru instruire. Fără un flux constant de date de text variate și extinse, modelele ar putea să nu se îmbunătățească în ritmul dorit, ceea ce ar putea limita avansurile în capacitățile și aplicațiile AI.

3. Există abordări alternative pentru instruirea modelelor AI de limbaj fără seturi de date mari?
Cercetările privind utilizarea mai eficientă a datelor existente și tehnici precum învățarea de transfer, în care un model pre-antrenat este ajustat pe un set de date mai mic și specific unei sarcini, ar putea atenua cererea de noi corpurii de texte vaste. În plus, metodele de învățare nesupervizate și semi-supervizate care necesită mai puține date etichetate ar putea fi, de asemenea, studiate.

Provocările și controversele cheie includ:
– Crearea de „date sintetice”: Utilizarea textului generat de AI ca materiale de instruire poate introduce prejudecăți și deteriora calitatea rezultatelor AI. Acest lucru declanșează, de asemenea, o dezbatere despre originalitatea și autenticitatea conținutului produs de modelele AI antrenate pe date sintetice.
– Diversitatea și calitatea datelor: Necesitatea unor seturi de date diverse și de înaltă calitate pentru a asigura că modelele AI de limbaj nu încarcă prejudecăți sau inexactități existente în rezultatele lor.
– Scalabilitatea instruirii: Pe măsură ce modelele devin tot mai mari, puterea de calcul și cantitatea de date necesare pentru instruire cresc exponențial, ridicând preocupări legate de sustenabilitatea economică și ambientală.

Avantajele și dezavantajele tendinței actuale de dezvoltare a modelelor AI de limbaj sunt:
– Avantaje:
– Capacități îmbunătățite ale AI în înțelegerea și generarea de texte asemănătoare celor umane.
– Îmbunătățiri potențiale într-o gamă largă de industrii, de la serviciile pentru clienți până la sănătate.
– Eficiență sporită prin automatizarea sarcinilor care necesită prelucrarea limbajului natural.

– Dezavantaje:
– Dependența de seturi de date mari care ar putea deveni rare sau dificil de obținut din perspectivă etică.
– Impactul asupra mediului datorat consumului crescut de energie pentru instruirea modelelor masive.
– Riscul consolidării prejudecăților și scăderea calității rezultatelor AI cu date sintetice.

Linkuri utile:
– OpenAI
– Universitatea din Toronto, Departamentul de Științe ale Calculatoarelor
– Institutul Vector pentru Inteligență Artificială

Vă rugăm să rețineți că, deși asigur valabilitatea acestor URL-uri conform cunoștințelor mele până la acest moment, vă sfătuiesc să verificați linkurile, deoarece acestea pot fi supuse modificării sau deveni depășite.