Mixtral 8x7B: Võimas keelemudel mitmekülgsetele rakendustele

Mistral AI teadlased on välja töötanud keelemudeli nimega Mixtral 8x7B, mis kasutab hõrenenud ekspertide segamise mudelit (Sparse Mixture of Experts, SMoE) avatud kaaludega. See dekodeerimismudel on litsentseeritud Apache 2.0 litsentsi all ning see toimib ekspertide segamise mudeli hõreda võrguna.

Mixtral 8x7B pakub erakordset jõudlust tänu oma unikaalsele arhitektuurile. Mixtrali etteandemudeli ruuterivõrgus on kaheksa erinevat parameetrirühma, mis võimaldab dünaamilist valikut. See valikuprotsess võimaldab iga sümboli töötlemist kahe parameetrirühma poolt, mida nimetatakse ekspertideks, ja nende tulemusi ühendatakse additiivselt. See strateegia laiendab oluliselt mudeli parameetrite ruumi, säilitades samal ajal kulu ja viiteaja kontrolli.

Üks Mixtral’i silmapaistvamaid omadusi on selle parameetrite efektiivne kasutamine, mis viib kiirema töötlemisaja nii väikeste kui ka suurte partiide korral. Võrdlustestides on Mixtral näidanud võrreldavat või paremat jõudlust teiste märkimisväärsete keelemudelite, nagu Llama 2 70B ja GPT-3.5, suhtes.

Mixtral on ületanud Llama 2 70B erinevates ülesannetes, sealhulgas mitmekeelne mõistmine, koodi genereerimine ja matemaatika. Mudel suudab tõhusalt eraldada andmeid oma 32k sümbolit sisaldavast kontekstiaknast, olenemata andmete pikkusest ja positsioonist jada sees.

Õiglase hindamise tagamiseks viis uurimismeeskond läbi põhjalikud võrdlused Mixtral’i ja Llama mudelite vahel mitmesugustes tulemusnäitajates. Need hinnangud hõlmasid matemaatikat, koodi, lugemisarusaamist, loogilist mõtlemist, maailmateadmisi ja populaarseid kokkuvõtteid.

Lisaks Mixtral 8x7B-le tutvustasid teadlased ka Mixtral 8x7B – Instruct’i, vestlusmudelit, mis on optimeeritud juhiste jaoks. Otseste eelistuste optimeerimise ja juhendatud häälestamise abil on Mixtral – Instruct ületanud teised vestlusmudelid, nagu GPT-3.5 Turbo ja Llama 2 70B.

Laiema kättesaadavuse ja mitmekülgsete rakenduste soodustamiseks on nii Mixtral 8x7B kui ka Mixtral 8x7B – Instruct litsentseeritud Apache 2.0 litsentsi all, võimaldades nende kommertslikku ja akadeemilist kasutamist.

Mixtral 8x7B arendus rõhutab selle erakordset jõudlust ja mitmekülgsust erinevates valdkondades. Alates matemaatikast ja koodiprobleemidest kuni lugemisarusaamiseni, põhjenduseni ja üldteadmisteni näitab Mixtral muljetavaldavaid võimeid võimsa keelemudelina.

The source of the article is from the blog exofeed.nl