Mixtral 8x7B: En Kraftfuld Sprogmodel til Forskellige Anvendelser

Forskere fra Mistral AI har udviklet Mixtral 8x7B, en sprogmodel, der benytter Sparse Mixture of Experts (SMoE)-modellen med åbne vægte. Denne dekodermodel er licenseret under Apache 2.0-licensen og fungerer som et sparsomt netværk af en ekspertblanding.

Mixtral 8x7B leverer enestående præstation takket være sin unikke arkitektur. Mixtrals feedforward-blok består af otte forskellige parametergrupper, der tillader dynamisk valg af router-netværket. Denne valgproces gør det muligt for hvert token at blive behandlet af to parametergrupper, kendt som eksperter, hvis resultater kombineres additivt. Denne strategi udvider markant modellens parameterrum, samtidig med at omkostninger og latenstid kontrolleres.

En af Mixtrals fremragende funktioner er den effektive brug af parametre, hvilket resulterer i hurtigere inferenstider ved både små og store batchstørrelser. I benchmark-tests har Mixtral vist sammenlignelig eller overlegen ydeevne i forhold til andre kendte sprogmodeller som Llama 2 70B og GPT-3.5.

Mixtral overgår Llama 2 70B i forskellige opgaver, herunder flersproget forståelse, kodeproduktion og matematik. Modellen kan effektivt ekstrahere data fra sit kontekstvindue med 32k tokens, uanset dataets længde og position inden for sekvensen.

For at sikre en retfærdig evaluering har forskerholdet foretaget dybtgående sammenligninger mellem Mixtral og Llama-modeller på en bred vifte af benchmarks. Disse vurderinger omfattede matematik, kode, læseforståelse, almindelig tænkning, verdenskendskab og populære aggregatfinder.

Udover Mixtral 8x7B har forskerne også introduceret Mixtral 8x7B – Instruct, en samtalemodel optimeret til instruktioner. Ved hjælp af direkte præferenceoptimering og overvåget finjustering har Mixtral – Instruct overgået andre chatmodeller som GPT-3.5 Turbo og Llama 2 70B.

For at fremme bred adgang og forskelligartede anvendelser er både Mixtral 8x7B og Mixtral 8x7B – Instruct licenseret under Apache 2.0-licensen, hvilket tillader kommerciel og akademisk brug.

Udviklingen af Mixtral 8x7B fremhæver dens enestående ydeevne og alsidighed på tværs af forskellige domæner. Fra matematik- og kodeproblemer til læseforståelse, ræsonnement og almen viden demonstrerer Mixtral imponerende evner som en kraftfuld sprogmodel.

The source of the article is from the blog mivalle.net.ar