Titlul tradus în limba română: Viitorul învățării asistate de IA: Pionieratul tehnicilor de date sintetice

În spatele răspunsurilor inteligente furnizate de către chatboturi stă o bază de date enormă, adesea formată din trilioane de cuvinte provenite din articole, cărți și comentarii online, care antrenează sistemele de inteligență artificială să înțeleagă interogările utilizatorilor. Este o credință răspândită în industrie că acumularea unei cantități cât mai mari de informații este cheia pentru dezvoltarea produselor AI de următoarea generație.

Cu toate acestea, există o provocare semnificativă asociată cu această abordare: doar o anumită cantitate de date de înaltă calitate este accesibilă online. Pentru a obține aceste date, companiile de AI plătesc adesea milioane de dolari editorilor pentru licențe de conținut sau adună informații de pe site-uri, riskând procese pentru încălcări de drepturi de autor.

Companiile de top de AI explorează o abordare alternativă și într-o oarecare măsură controversată în comunitatea de AI: utilizarea datelor sintetice, sau practic ‘false’. De exemplu, întreprinderile de tehnologie generează text și media prin sistemele lor de AI. Aceste date artificiale sunt apoi folosite pentru a antrena viitoarele iterații ale acelor sisteme AI, ce sunt descrise de Dario Amodei, CEO Anthropic, ca un potențial „instrument de generare infinită de date”. Această metodologie permite companiilor de AI să ocolească o mulțime de probleme legale, etice și de confidențialitate.

Datele sintetice în informatică nu sunt ceva nou – au fost utilizate de decenii în diverse scopuri, inclusiv anonimizarea informațiilor personale și simularea condițiilor de conducere pentru tehnologia vehiculelor autonome. Cu toate acestea, progresele în generarea de AI au facilitat producerea de date sintetice de înaltă calitate la o scară mai mare, crescând urgenta implementării acestora.

Generative AI, axat în primul rând pe crearea de informații noi, produce date, text, imagini, sunete, video și altele prin procese precum învățarea automată și învățarea profundă. Un exemplu prominent este modelele GPT ale OpenAI, capabile să genereze text nou pe baza datelor lor anterioare de antrenament.

Anthropic a relatat că a folosit date sintetice pentru a construi cel mai recent model care susține chatbotul său, Claude. Companiile Meta Platforms și Google au implementat, de asemenea, date sintetice în dezvoltarea modelelor lor open-source recente.

Echipa de cercetare AI a Microsoft a încercat să emuleze modul în care copiii învață limbajul prin crearea de povești pentru copii dintr-o listă de 3.000 de cuvinte pe care un copil de patru ani le-ar putea înțelege, rezultând în milioane de povești scurte care au îmbunătățit capacitățile unui model de limbaj AI. Această cercetare a condus la dezvoltarea unui model compact și open-source de limbaj cunoscut sub numele de Phi-3, disponibil public pentru utilizare.

Sébastien Bubeck, Vicepreședinte AI la Microsoft, a remarcat că datele sintetice acordă mai mult control asupra procesului de învățare al modelului, permițând instrucțiuni detaliate care altfel nu ar fi posibile. Cu toate acestea, experții exprimă îngrijorări cu privire la riscurile unor astfel de tehnici, avertizând cu privire la un posibil ‘colaps al modelului’, așa cum indică cercetările de la universități renumite precum Oxford și Cambridge.

Cele mai importante întrebări și răspunsurile lor:

1. Ce sunt datele sintetice?
Datele sintetice sunt informații generate artificial folosite ca alternativă la datele din lumea reală. Acestea sunt create prin algoritmi și simulări și pot lua forma de text, imagini, sunet, video etc.

2. De ce sunt relevante datele sintetice pentru viitorul învățării AI?
Datele sintetice sunt relevante deoarece pot furniza o cantitate ‘infinită’ de materiale de antrenament pentru AI, fără problemele legale, etice și de confidențialitate asociate extragerii datelor din lumea reală.

3. Care sunt principalele provocări asociate cu utilizarea datelor sintetice în AI?
Una dintre principalele provocări este asigurarea faptului că datele sintetice sunt de înaltă calitate și reprezintă în mod precis diversitatea și complexitatea scenariilor din lumea reală. Există, de asemenea, riscul unui ‘colaps al modelului’, în care AI începe să producă ieșiri omogene sau fără sens.

Controverse:

– Implicații etice: Unii se tem că datele sintetice ar putea permite amplificarea prejudecăților sau ar putea duce la crearea de deepfakes care ar putea fi folosite pentru dezinformare.
– Preocupări legate de autenticitate: Există un dezbate despre dacă AI-ul antrenat în întregime pe date sintetice poate atinge o înțelegere adevărată și conștientizarea contextului echivalentă cu cea obținută din datele din lumea reală.

Avantaje:

– Beneficii legale și etice: Evită posibilele probleme legale legate de extragerea datelor și încălcările de drepturi de autor.
– Controlabilitate: Permite designerilor să specifice și să controleze scenariile și parametrii datelor, conducând către rezultate de antrenament potențial mai bune.
– Scalabilitate: Poate genera cantități mari de date rapid și la un cost mai mic comparativ cu achiziționarea datelor din lumea reală.

Dezavantaje:

– Asigurarea calității: Asigurarea faptului că datele sintetice sunt suficient de reprezentative pentru a antrena modele AI eficiente este o provocare.
– Risc de supraantrenare: Există riscul ca modelele AI antrenate pe date sintetice să nu performeze bine cu datele din lumea reală datorită supraantrenării pe seturile de date artificiale.
– Complexitate: Crearea de date sintetice de înaltă calitate poate fi complexă și să necesite resurse considerabile.

Linkuri recomandate:

– Pentru o prezentare generală a AI și învățării automate, vizitează OpenAI.
– Pentru a afla despre rolul generative AI în crearea datelor sintetice, verifică DeepMind.
– Informații despre utilizarea etică a inteligenței artificiale pot fi găsite la Partnership on AI.

Tehnicile de generative AI și datele sintetice continuă să evolueze, împingând limitele a ceea ce este posibil în învățarea AI și deschizând noi posibilități care ar putea modela tehnologia viitorului.