Mixtral 8x7B: Močan jezikovni model za različne aplikacije

Raziskovalci iz podjetja Mistral AI so razvili Mixtral 8x7B, jezikovni model, ki uporablja model Sparse Mixture of Experts (SMoE) z odprtimi utežmi. Ta dekodirni model je licenciran pod licenco Apache 2.0 in deluje kot redek omrežni model mešanja strokovnjakov.

Mixtral 8x7B ponuja izjemne zmogljivosti zaradi svoje edinstvene arhitekture. Feedforward blok Mixtrala sestoji iz osmih različnih skupin parametrov, kar omogoča dinamično izbiro s strani omrežja usmerjevalnika. Ta izbirni postopek omogoča obdelavo vsakega simbola s strani dveh parametrov, imenovanih strokovnjaki, katerih rezultati se združijo aditivno. Ta strategija znatno poveča parametrski prostor modela, hkrati pa ohranja nadzor nad stroški in zakasnitvijo.

Eden izmed izstopajočih lastnosti Mixtrala je njegovo učinkovito upravljanje parametrov, kar omogoča hitrejšo izvedbo tako pri majhnih kot pri velikih paketih podatkov. V primerjalnih testih je Mixtral pokazal primerljive ali celo boljše zmogljivosti kot druge priljubljene jezikovne modele, kot so Llama 2 70B in GPT-3.5.

Mixtral prekaša Llamo 2 70B pri različnih nalogah, vključno z večjezičnim razumevanjem, generiranjem kode in matematiko. Model lahko učinkovito izvleče podatke iz kontekstnega okna dolžine 32k simbolov, ne glede na dolžino podatkov in njihov položaj v zaporedju.

Da bi zagotovili pošteno oceno, je raziskovalna ekipa izvedla temeljito primerjavo med modeloma Mixtral in Llama na širokem naboru preizkusov. Ta ocenjevanja so zajemala matematiko, programiranje, berljivost, logično razmišljanje, svetovno znanje in priljubljene agregirane ugotovitve.

Poleg Mixtral 8x7B so raziskovalci predstavili tudi Mixtral 8x7B – Instruct, pogovorni model, ki je optimiziran za navodila. Z neposredno optimizacijo preferenc in nadzorovanim finim prilagajanjem je Mixtral – Instruct presegel druge pogovorne modele, kot so GPT-3.5 Turbo in Llama 2 70B.

Z namenom spodbujanja široke dostopnosti in raznolikih aplikacij sta tako Mixtral 8x7B kot Mixtral 8x7B – Instruct licencirana pod licenco Apache 2.0, kar omogoča komercialno in akademsko uporabo.

Razvoj modela Mixtral 8x7B poudarja njegove izjemne zmogljivosti in vsestranskost v različnih področjih. Od matematike in programiranja do razumevanja besedil, sklepanja in splošnega znanja, Mixtral kaže impresivne sposobnosti kot močan jezikovni model.

The source of the article is from the blog maltemoney.com.br