Démystifier le Mixture of Experts en modèles de langage
Mixture of Experts (MoEs) révolutionne le pré-entraînement des modèles. Décryptage d'une avancée clé en IA.
Avec l’arrivée du modèle Mixtral 8x7B, le concept de Mixture of Experts, ou MoEs, s’est imposé comme un sujet brûlant dans la communauté Open AI. Ces modèles permettent de pré-entraîner des algorithmes de manière nettement plus rapide et moins coûteuse en ressources informatiques comparé aux modèles denses traditionnels.
Comprendre la structure des Mixture of Experts
Les Mixture of Experts se distinguent par l’utilisation de couches MoE, en remplacement des couches FFN denses classiques. Chaque MoE inclut plusieurs « experts »—chacun étant un réseau neuronal. Un réseau de passage, ou « router », détermine quel expert gère un certain token. Cette stratégie maximise l’efficacité du calcul en ne sollicitant que quelques experts par token, accélérant l’inférence tout en nécessitant une capacité mémoire élevée.
Les avantages en termes de pré-entraînement
Les modèles MoE, comme Mixtral, présentent des temps de pré-entraînement bien plus courts, atteignant des performances comparables aux modèles denses avec une fraction du coût informatique. Par exemple, au lieu de nécessiter l’intégralité du modèle 47B pour gérer le pré-entraînement, les MoEs parviennent à une échelle similaire avec un moindre besoin en VRAM.
Les défis du fine-tuning des MoEs
Historiquement, les MoEs ont rencontré des difficultés lors du fine-tuning, souvent sujets à l’overfitting. Cependant, les techniques récentes, telles que le tuning par instruction, offrent des perspectives prometteuses, suggérant que ce défi pourrait être surmonté.
Les Mixture of Experts offrent une efficacité de pré-entraînement remarquable et des inférences plus rapides pour des ressources modestes. Cependant, le fine-tuning reste un défi à surmonter.
Histoire et évolutions des MoEs
Les origines des MoEs remontent aux années 1990, inspirées par des méthodes d’ensemble. L’idée a été popularisée par des travaux de Google, permettant l’évolution vers des architectures comme les Switch Transformers de 1,6T de paramètres. Ces avancées en NLP permettent un passage à l’échelle sans précédent.
En conclusion, bien que les Mixture of Experts posent encore certains défis, notamment en termes de fine-tuning, leur capacité à réduire les coûts de pré-entraînement tout en augmentant l’efficacité d’inférence est un atout non négligeable. Ce développement pourrait bien redéfinir comment les modèles de langage seront conçus à l’avenir.