Elon Musks virksomhed udgiver Grok-1 model som open source og deltager i kampen mod de store AI-firmaer

I et betydeligt skridt har xAI Corp., en kunstig intelligens-opstart ledet af Elon Musk, gjort sin store sprogmodel Grok-1 (LLM) tilgængelig som open source. Denne udgivelse kommer kort tid efter, at Apple Inc. afslørede sin egen forskning om multimodale LLM’er. Mens Musk havde annonceret intentionen om at frigive Grok som open source den 11. marts, er det i dag, at virksomheden har delt selve arkitekturen og vægtene af modellen.

Den frigivne kode omfatter en afgørende del af Groks strukturelle design – arrangementet og sammenkoblingen af lag og noder til databehandling. Derudover er de grundlæggende modelvægte, som er de justerede parametre, der bestemmer transformationen af inputdata til output, også blevet delt.

Grok-1 er en omfattende Mixture-of-Experts-model udviklet af xAI fra bunden. En Mixture-of-Experts-model kombinerer output fra specialiserede submodeller, kendt som eksperter, for at generere en endelig forudsigelse. Gennem sammenløbet af diverse opgaver og datasæt udnytter denne tilgang ekspertisen fra hver enkelt model for at optimere præstationen.

Det, der er blevet frigivet, er et råt basismodelcheckpoint fra fortræningsfasen, som blev afsluttet i oktober 2023. Det er vigtigt at bemærke, at modellen ikke er blevet finjusteret til nogen specifik anvendelse, såsom dialog.

Elon Musks xAI sigter mod at konkurrere med AI-tilbud fra store virksomheder som Google og OpenAI. Deres indledende model, Grok, henter inspiration fra Douglas Adams’ berømte bog “Håndbog for vakse galakse-forflyttere”. Ifølge xAI er Grok designet til at give svar på et bredt spektrum af spørgsmål og endda foreslå relevante forespørgsler.

I mellemtiden har Apple taget et skridt fremad i sin forskning om multimodale LLM’er. Virksomheden offentliggjorde for nylig en undersøgelse, der detaljerer sit arbejde med MM1, et sæt multimodale modeller, der er i stand til at give billedtekster, svare på visuelle spørgsmål og forstå naturligt sprog. Apples forskere hævder, at multimodale LLM’er repræsenterer det næste skridt inden for foundationsmodeller og tilbyder overlegne evner.

Multimodale LLM’er, som MM1, har evnen til at forstå og generere svar på tværs af forskellige datatyper, herunder tekst, billeder og lyd. Ved at integrere forskellige former for information udmærker disse modeller sig i komplekse opgaver. Apples gennembrud med MM1 forventes at lette opskaleringen af sådanne modeller til større datasæt og væsentligt forbedre deres præstation og pålidelighed.

Det er værd at nævne, at Apple tidligere havde gjort fremskridt med multimodale LLM’er med Ferret, som stille blev open-source i oktober og fik opmærksomhed i december.

Med tilgængeligheden af Grok-1’s open source-kode er xAI Corp. trådt ind i kapløbet mod etablerede AI-firmaer. Dette skridt bidrager ikke kun til den fælles viden i AI-fællesskabet, men inviterer også til samarbejde og innovation. Som kunstig intelligens fortsætter med at udvikle sig, vil frigivelsen af modeller som Grok-1 utvivlsomt forme fremtiden for AI-forskning og -applikationer.

— — —

FAQ

Hvad er en stor sprogmodel (LLM)?

En stor sprogmodel (LLM) er et kunstig intelligenssystem designet til at forstå og generere menneskelignende tekst baseret på store mængder træningsdata.

Hvad er en Mixture-of-Experts-model?

En Mixture-of-Experts-model er en maskinindlæringsmetode, der kombinerer output fra flere specialiserede submodeller for at lave en endelig forudsigelse. Hver submodel fokuserer på en bestemt del af opgaven for hånden og bidrager til en overordnet optimeret præstation.

Hvad er multimodale LLM’er?

Multimodale LLM’er er AI-systemer, der er i stand til at forstå og generere svar på tværs af forskellige datatyper, såsom tekst, billeder og lyd. Ved at integrere forskellige former for informationviser disse modeller forbedrede evner til komplekse opgaver.