Mixtral 8x7B: Spēcīgs valodas modelis dažādām lietojumprogrammām

Pētnieki no Mistral AI ir izstrādājuši Mixtral 8x7B, valodas modeli, kas izmanto Sparso Eksperšu Mazamoča (SMoE) modeļu ar atvērtajiem svariem. Šajā dekodētāja modelī ir licencēta Apache 2.0 licences, un tas darbojas kā reti sadalīta ekspertu sajaukuma tīkls.

Mixtral 8x7B izceļas ar izcilu veiktspēju, pateicoties savai unikālajai arhitektūrai. Mixtral priekšpuses bloks sastāv no astoņiem atšķirīgiem parametru grupām, kas ļauj dinamiski izvēlēties maršrutētāja tīklu. Šīs izvēles procesā katru tāmeni var apstrādāt divas parametru grupas, ko sauc par ekspertiem, un to rezultāti tiek apvienoti additīvi. Šī stratēģija ievērojami paplašina modeļa parametru telpu, saglabājot izmaksu un aizturi.

Viena no Mixtral izcilajām īpašībām ir tā efektīva parametru izmantošana, kas nodrošina ātrākas secināšanas laikus gan mazos, gan lielos failu apjomos. Salīdzinājuma testos Mixtral ir demonstrējis, salīdzinot ar citiem ievērojamiem valodas modeļiem, piemēram, Llama 2 70B un GPT-3.5, salīdzināmu vai pat labāku veiktspēju.

Mixtral pārspēj Llama 2 70B dažādos uzdevumos, ieskaitot daudzvalodu saprašanu, koda izveidi un matemātiku. Modelis efektīvi izvelk datus no konteksta loga ar 32k tāmenīm neatkarīgi no datu garuma un pozīcijas virknē.

Lai nodrošinātu objektīvu novērtējumu, pētniecības komanda veica detalizētas salīdzināšanas starp Mixtral un Llama modeļiem dažādos rādītājos. Šie novērtējumi ietvēra matemātiku, kodu, lasīšanas saprašanu, vispārēju loģisko iztēli, pasaules zināšanas un populāras apkopotās atziņas.

Lis Mixtral 8x7B, pētnieki iepazīstināja arī ar Mixtral 8x7B – Instruct, sarunu modeli, kas optimizēts instrukcijām. Izmantojot tiešo preference optimizāciju un pielāgotu feinafinašanu, Mixtral – Instruct ir izrādījies veiksmīgāks nekā citi tērzēšanas modeļi, piemēram, GPT-3.5 Turbo un Llama 2 70B.

Lai veicinātu plašu piekļuvi un dažādus pielietojumus, gan Mixtral 8x7B, gan Mixtral 8x7B – Instruct ir licencēti saskaņā ar Apache 2.0 licences, ļaujot tos izmantot komerciālos un akadēmiskos nolūkos.

Mixtral 8x7B izstrāde uzsvēra tās izcilas veiktspējas un daudzpusību dažādās jomās. Sākot no matemātikas un koda problēmām līdz lasīšanas saprašanai, loģiskam domāšanai un vispārējām zināšanām, Mixtral demonstrē iespaidīgas spējas kā spēcīgs valodas modelis.

The source of the article is from the blog radiohotmusic.it

Privacy policy
Contact