Mixtral : le modèle MoE qui surpasse GPT-3.5
Mixtral établit de nouveaux standards en surpassant GPT-3.5 sur de nombreux benchmarks. Découvre ses spécificités et intégrations.
En décembre 2023, Mistral a frappé un grand coup avec le lancement du modèle Mixtral 8x7b, un modèle de langage qui surpasse GPT-3.5 sur de nombreux benchmarks. Ce modèle, intégré dans l’écosystème Hugging Face avec des solutions prêtes pour la production, représente une avancée notable dans le monde des modèles à accès ouvert.
Qu’est-ce que le modèle Mixtral 8x7b ?
Mixtral est conçu avec l’architecture Mixture of Experts (MoE), intégrant huit modèles « experts » en un seul. Grâce à cette technique, certains Feed-Forward layers des modèles transformers sont remplacés par des couches MoE contenant un réseau de routeurs. Ces derniers sélectionnent quels experts traiteront les tokens de manière optimale, permettant ainsi au modèle de fonctionner aussi rapidement qu’un modèle dense de 12 milliards de paramètres, mais avec quatre fois plus de paramètres effectifs.
Performance remarquable de Mixtral
Avec un score de 68.42 sur le LLM Leaderboard, Mixtral dépasse clairement des modèles comme Llama 2 70B et est à égalité, voire meilleur, que GPT-3.5. À titre de comparaison, Llama 2 70B atteint 67.87. En terme de performance contextuelle, Mixtral offre une fenêtre de contexte de 32k tokens, une avancée significative face aux modèles propriétaires comme GPT-4 Turbo avec ses 128k.
Mixtral redéfinit les normes des modèles linguistiques ouverts en dépassant GPT-3.5. Il offre des intégrations robustes et un cadre flexible sur Hugging Face.
Intégration et utilisation de Mixtral
Hugging Face propose deux méthodes principales pour exploiter Mixtral : via la fonction pipeline() de 🤗 Transformers et avec Text Generation Inference. Ces méthodes permettent une inférence rapide et optimisée, même avec des poids quantifiés. Par exemple, maintenir le modèle en float16 nécessite plus de 90 Go de VRAM tandis qu’en 4-bits, seulement 23 Go sont nécessaires.
Un modèle commercialement permissif
Un avantage non négligeable est que Mixtral est commercialement permissif sous licence Apache 2.0, ce qui signifie qu’il offre une flexibilité d’utilisation incomparable pour les développeurs cherchant à intégrer un modèle performant sans restrictions excessives.
« Mixtral Instruct surpasse tous les autres modèles en accès libre sur MT-Bench, devenant le premier à se rapprocher des performances de GPT-3.5. »
Source: Hugging Face
En conclusion, l’arrivée de Mixtral 8x7b ne se contente pas seulement de concurrencer GPT-3.5, mais elle propose également une architecture plus souple et optimisée pour différentes applications. Pour les développeurs tech et startups, il offre une solution robuste et polyvalente prête à intégrer leur écosystème avec une facilité déconcertante.