Mixtral 8x7B: Un potente modello di linguaggio per applicazioni diverse

I ricercatori di Mistral AI hanno sviluppato Mixtral 8x7B, un modello di linguaggio che utilizza il modello Sparse Mixture of Experts (SMoE) con pesi aperti. Questo modello di decodifica è stato concesso in licenza secondo l’Apache 2.0 license ed funziona come una rete sparsa di una mistura di esperti.

Mixtral 8x7B offre prestazioni eccezionali grazie alla sua architettura unica. Il blocco feedforward di Mixtral è composto da otto diversi gruppi di parametri, consentendo una selezione dinamica da parte della rete router. Questo processo di selezione consente a ogni token di essere elaborato da due gruppi di parametri, noti come esperti, i cui risultati vengono combinati in modo additivo. Questa strategia espande significativamente lo spazio dei parametri del modello pur mantenendo il controllo dei costi e della latenza.

Una delle caratteristiche distintive di Mixtral è il suo efficace utilizzo dei parametri, che porta a tempi di inferenza più veloci sia per piccoli che per grandi batch. Nei test di benchmark, Mixtral ha dimostrato prestazioni comparabili o superiori ad altri modelli di linguaggio noti come Llama 2 70B e GPT-3.5.

Mixtral supera Llama 2 70B in vari compiti, tra cui comprensione multilingue, produzione di codice e matematica. Il modello può estrarre in modo efficace i dati dalla sua finestra di contesto di 32k token, indipendentemente dalla lunghezza e dalla posizione dei dati all’interno della sequenza.

Per garantire una valutazione equa, il team di ricerca ha condotto confronti approfonditi tra Mixtral e i modelli Llama su una vasta gamma di benchmark. Queste valutazioni hanno riguardato matematica, codice, comprensione della lettura, ragionamento basato sul buon senso, conoscenza del mondo e risultati aggregati popolari.

Oltre a Mixtral 8x7B, i ricercatori hanno anche introdotto Mixtral 8x7B – Instruct, un modello di conversazione ottimizzato per le istruzioni. Attraverso l’ottimizzazione diretta delle preferenze e il raffinamento supervisionato, Mixtral – Instruct ha superato altri modelli di chat come GPT-3.5 Turbo e Llama 2 70B.

Per favorire l’accesso diffuso e le applicazioni diverse, sia Mixtral 8x7B che Mixtral 8x7B – Instruct sono stati concessi in licenza secondo l’Apache 2.0 license, consentendo un utilizzo commerciale e accademico.

Lo sviluppo di Mixtral 8x7B mette in evidenza le sue eccezionali prestazioni e versatilità in vari domini. Dalla matematica e dai problemi di codice alla comprensione della lettura, al ragionamento e alla conoscenza generale, Mixtral dimostra capacità impressionanti come potente modello di linguaggio.

The source of the article is from the blog klikeri.rs