Mixtral 8x7B: Potężny model językowy do różnorodnych zastosowań

Badacze z Mistral AI opracowali Mixtral 8x7B, model językowy wykorzystujący model Sparse Mixture of Experts (SMoE) z otwartymi wagami. Ten model dekodera został licencjonowany na licencji Apache 2.0 i działa jako rzadka sieć mieszanka ekspertów.

Mixtral 8x7B oferuje wyjątkową wydajność dzięki swojej unikalnej architekturze. Blok feedforward Mixtral składa się z ośmiu różnych grup parametrów, co pozwala na dynamiczny wybór przez sieć routera. Proces ten umożliwia przetworzenie każdego tokena przez dwie grupy parametrów, znane jako eksperci, których wyniki są łączone addytywnie. Ta strategia znacznie rozszerza przestrzeń parametrów modelu, jednocześnie kontrolując koszty i opóźnienia.

Jedną z najważniejszych cech Mixtral jest skuteczne wykorzystanie parametrów, co prowadzi do szybszego czasu wnioskowania zarówno przy małych, jak i dużych rozmiarach wsadu. W testach porównawczych Mixtral wykazał porównywalne lub wyższe osiągi w porównaniu do innych znanych modeli językowych, takich jak Llama 2 70B i GPT-3.5.

Mixtral przewyższa Llama 2 70B w różnych zadaniach, w tym w rozumieniu wielojęzycznym, produkcji kodu i matematyce. Model efektywnie wyodrębnia dane z okna kontekstowego 32k tokenów, bez względu na długość danych i ich pozycję w sekwencji.

Aby zapewnić sprawiedliwą ocenę, zespół badawczy przeprowadził dogłębne porównania między modelami Mixtral a modelami Llama na szerokim zakresie benchmarków. Oceny te obejmowały matematykę, kod, zrozumienie czytanego tekstu, zdroworozsądkowe myślenie, wiedzę o świecie oraz popularne wyniki agregowane.

Oprócz Mixtral 8x7B, badacze wprowadzili również Mixtral 8x7B – Instruct, model rozmowy zoptymalizowany pod kątem instrukcji. Dzięki bezpośredniej optymalizacji preferencji i nadzorowanemu dostrojeniu, Mixtral – Instruct przewyższa inne modele rozmów, takie jak GPT-3.5 Turbo i Llama 2 70B.

Aby zachęcić do szerokiego dostępu i różnorodnych zastosowań, zarówno Mixtral 8x7B, jak i Mixtral 8x7B – Instruct, zostały licencjonowane na licencji Apache 2.0, co pozwala na wykorzystanie komercyjne i naukowe.

Rozwój Mixtral 8x7B podkreśla jego wyjątkową wydajność i wszechstronność w różnych dziedzinach. Od problemów matematycznych i kodowych po zrozumienie czytanego tekstu, rozumowanie i ogólną wiedzę, Mixtral wykazuje imponujące możliwości jako potężny model językowy.

The source of the article is from the blog lisboatv.pt