En ny era för artificiell intelligens: Konkurrensen om Grok-1 och MM1

I en betydelsefull framstöt har xAI Corp., ett startup-företag inom artificiell intelligens ledd av Elon Musk, gjort sin Grok-1 large language model (LLM) tillgänglig som öppen källkod. Detta släpp kommer kort efter att Apple Inc. avslöjade sin egen forskning om multimodala LLM:er. Medan Musk hade annonserat avsikten att släppa Grok som öppen källkod den 11 mars är det idag som företaget har delat modellens kärnarkitektur och vikter.

Den utgivna koden omfattar en avgörande del av Groks strukturella design – placeringen och sammankopplingen av lager och noder för dataprocessering. Dessutom har de grundläggande modelvikterna, vilka är justerade parametrar som bestämmer omvandlingen av indata till utdata, också delats.

Grok-1 är en omfattande Mixture-of-Experts-modell utvecklad av xAI från grunden. En Mixture-of-Experts-modell kombinerar utgångarna från specialiserade submodeller, kända som experter, för att generera en slutgiltig prediktion. Genom sammanflätningen av olika uppgifter och datasubset optimerar denna metod expertisen hos varje individuell modell för att maximera prestandan.

Det som har släppts är en rå basmodellcheckpoint från förträningsfasen, som avslutades i oktober 2023. Det är viktigt att notera att modellen inte har finslipats för någon specifik tillämpning, såsom dialog.

Elon Musks xAI syftar till att konkurrera med AI-erbjudanden från branschgiganter som Google och OpenAI. Deras invigningsmodell, Grok, hämtar inspiration från Douglas Adams välkända bok ”Liftarens guide till galaxen.” Enligt xAI är Grok utformad för att ge svar på en mängd olika frågor och till och med föreslå relevanta förfrågningar.

Samtidigt har Apple tagit ett steg framåt i sin forskning om multimodala LLM:er. Företaget publicerade nyligen en artikel som detaljerar sitt arbete med MM1, en uppsättning multimodala modeller som kan förse bildtexter, svara på visuella frågor och förstå naturligt språk. Apples forskare hävdar att multimodala LLM:er representerar den nästa fronten inom grundmodeller och erbjuder överlägsna möjligheter.

Multimodala LLM:er, som MM1, har förmågan att förstå och generera svar över olika dataområden, inklusive text, bilder och ljud. Genom att integrera olika former av information utmärker sig dessa modeller i komplexa uppgifter. Apples genombrott med MM1 förväntas underlätta skalningen av sådana modeller till större dataset och avsevärt förbättra deras prestanda och tillförlitlighet.

Det är värt att nämna att Apple tidigare hade gjort framsteg inom multimodala LLM:er med Ferret, som tyst släpptes som öppen källkod i oktober och väckte uppmärksamhet i december.

Med tillgängligheten av Grok-1:s öppen källkodsprogram har xAI Corp. gått med i racet mot etablerade AI-företag. Detta drag bidrar inte bara till den samlade kunskapen inom AI-samhället utan också inbjuder till samarbete och innovation. I takt med att området för artificiell intelligens fortsätter att utvecklas kommer släppet av sådana modeller utan tvekan att forma framtiden för AI-forskning och tillämpningar.

Vanliga frågor

Vad är en large language model (LLM)?

En large language model (LLM) är ett artificiellt intelligenssystem utformat för att förstå och generera mänskliknande text baserat på stora mängder träningsdata.

Vad är en Mixture-of-Experts model?

En Mixture-of-Experts modell är en maskininlärningsmetod som kombinerar utgångarna från flera specialiserade submodeller för att göra en slutgiltig prediktion. Varje submodell fokuserar på en specifik aspekt av den aktuella uppgiften och bidrar till en övergripande optimerad prestanda.

Vad är multimodala LLM:er?

Multimodala LLM:er är AI-system som har förmågan att förstå och generera svar över olika datatyper, såsom text, bilder och ljud. Genom att integrera olika informationsformer uppvisar dessa modeller förbättrade förmågor för komplexa uppgifter.

(Källa: Domän av artikelkällan)

The source of the article is from the blog reporterosdelsur.com.mx