Competiția pentru Supremație în Inteligența Artificială: Grok-1 vs. MM1

Într-o mișcare semnificativă, compania xAI Corp., o nouă afacere de inteligență artificială condusă de Elon Musk, a făcut modelul său Grok-1, un model de limbaj larg (LLM), disponibil ca sursă deschisă. Această lansare vine la scurt timp după ce Apple Inc. a dezvăluit propria cercetare privind modelele multimodale de limbaj larg. În timp ce Musk anunțase intenția de a lansa Grok ca sursă deschisă pe 11 martie, azi compania a decis să împărtășească arhitectura de bază și greutățile modelului.

Codul eliberat cuprinde un aspect crucial al designului structural al lui Grok – aranjamentul și interconectarea straturilor și nodurilor pentru procesarea datelor. În plus, greutățile modelului de bază, care sunt parametrii ajustați ce determină transformarea datelor de intrare în ieșire, au fost de asemenea împărtășite.

Grok-1 este un model extensiv Mixture-of-Experts dezvoltat de xAI de la zero. Un model Mixture-of-Experts combină ieșirile submodelelor specializate, cunoscute sub numele de experți, pentru a genera o predicție finală. Prin convergența sarcinilor și subseturilor de date diverse, această abordare exploatează expertiza fiecărui model individual pentru a-și optimiza performanța.

Ceea ce a fost eliberat este un punct de control de bază brut din faza de pre-antrenament, care s-a încheiat în octombrie 2023. Este important de menționat că modelul nu a fost ajustat fin pentru nicio aplicație specifică, cum ar fi dialogul.

xAI Corp. de Elon Musk își propune să concureze cu ofertele de inteligență artificială de la giganți din industrie precum Google și OpenAI. Modelul lor inaugural, Grok, se inspiră din cartea celebră a lui Douglas Adams „Ghidul Autostopistului Galactic”. Conform xAI, Grok este proiectat pentru a oferi răspunsuri la o gamă largă de întrebări și chiar pentru a sugera investigații relevante.

Între timp, Apple a făcut un pas înainte în cercetarea sa privind modelele multimodale LLM. Compania a publicat recent un articol care detaliază munca sa pe MM1, un set de modele multimodale capabile să eticheteze imagini, să răspundă la întrebări vizuale și să înțeleagă limbajul natural. Cercetătorii Apple susțin că modelele multimodale LLM reprezintă următoarea frontieră în modelele de bază și oferă capacități superioare.

Modelele multimodale LLM, precum MM1, au capacitatea de a înțelege și a genera răspunsuri pe diverse tipuri de date, inclusiv text, imagini și audio. Prin integrarea formelor diverse de informații, aceste modele excelerează în sarcini complexe. Avansul făcut de Apple cu MM1 se așteaptă să faciliteze scalarea acestor modele către seturi de date mai mari, îmbunătățind substanțial performanța și fiabilitatea acestora.

Menționăm că Apple a avansat anterior în modelele multimodale LLM cu Ferret, care a fost lansat silențios în octombrie și a atras atenția în decembrie.

Odată cu disponibilitatea codului sursă deschisă Grok-1, xAI Corp. a intrat în competiția cu firmele de inteligență artificială deja stabilite. Această mișcare nu doar contribuie la cunoștințele colective din comunitatea de IA, dar și invită la colaborare și inovație. Pe măsură ce domeniul inteligenței artificiale continuă să evolueze, lansarea unor modele deschise precum Grok-1 va contura fără îndoială viitorul cercetării și aplicațiilor în domeniul IA.

Ce este un model de limbaj larg (LLM)?
Un model de limbaj larg (LLM) este un sistem de inteligență artificială proiectat pentru a înțelege și a genera text de tip uman bazat pe o cantitate vastă de date de antrenament.
Ce este un model Mixture-of-Experts?
Un model Mixture-of-Experts este o abordare de învățare automată care combină ieșirile mai multor submodele specializate pentru a face o predicție finală. Fiecare submodel se concentrează pe un aspect specific al sarcinii, contribuind la o performanță global optimizată.
Ce sunt modelele multimodale LLM?
Modelele multimodale LLM sunt sisteme de inteligență artificială capabile să înțeleagă și să genereze răspunsuri pe diferite tipuri de date, cum ar fi textul, imaginile și sunetul. Prin integrarea formelor diverse de informații, aceste modele prezintă capacități îmbunătățite pentru sarcini complexe.

Sursa: Sursa.ro

The source of the article is from the blog macnifico.pt