Apriel-H1 : Nouveaux modèles de raisonnement passés au crible

Apriel-H1 : Nouveaux modèles de raisonnement passés au crible

🗓 18 Mar 2026 · ⏱ 8 min de lecture · 🤖 Généré par IA

Apriel-H1 réduit le gaspillage de puissance tout en préservant la qualité du raisonnement grâce à un choix de données astucieux.

En réinventant leur modèle de raisonnement de 15 milliards de paramètres en une version hybride nommée Mamba, ServiceNow-AI a réussi à doubler le débit sans sacrifier la qualité. Le secret réside dans un choix de données distillé avec soin, défiant l’intuition conventionnelle.

Données spécifiques : le véritable dilemme de la distillation

Face à la nécessité d’améliorer leur modèle actuel sans une reformation colossale, l’équipe de ServiceNow-AI s’est retrouvée confrontée à un choix critique : quelles données utiliser pour la distillation? En dépit d’une approche intuitive, utiliser les mêmes données de préentraînement s’est avéré décevant. La solution s’est finalement trouvée dans l’exploitation des traces de raisonnement détaillées provenant de l’ensemble de données enseignées par transfert (SFT) du professeur.

Conversion incrémentielle : méthode validée par étapes

Pour remplacer les couches d’attention par le Mamba, une approche en trois étapes était essentielle. Premièrement, identifier les couches les moins cruciales, les remplacer et distiller. Ensuite, une conversion progressive tout en monitorant les couches via MIL-Mamba-Replacement, combinant couches de manière dynamique plutôt que statique. Enfin, une formation exhaustive sur les données SFT pour stabiliser la performance du raisonnement.

💡 À retenir

Utiliser des données de distillation ciblées permet d’améliorer l’efficacité des modèles de raisonnement tout en maintenant la qualité. Une approche structurée et incrémentale est essentielle pour optimiser sans recommencer à zéro.

Benchmarking : résultats et comparaisons

Les résultats parlent d’eux-mêmes : Apriel-H1-15b-Thinker-SFT a amélioré le débit de 2,1 fois tout en gardant la qualité presque stable. Comparativement, l’approche de formation à partir de zéro de NVIDIA sur Nemotron-Nano-9B-v2 a requis des ressources colossales, bien que son score moyen soit similaire à celui d’Apriel-H1.

« Le choix des données pour la distillation doit correspondre à la capacité que vous souhaitez préserver, plutôt qu’à celle que vous cherchez à construire. »

ServiceNow-AI sur la distillation des modèles de raisonnement

Fast-LLM : une architecture modulaire au service de l’efficacité

Le socle de cette transformation, le cadre Fast-LLM, prône une modularité permettant d’échanger facilement entre les interfaces de ‘mixing’. Attention et Mamba peuvent ainsi être interchangés sans peine à condition que l’architecture soit structurée en conséquence, rendant l’ensemble non seulement puissant, mais aussi flexible.

Le choix des données et la méthodologie de distillation sont les véritables protagonistes de cette histoire. En appuyant la stratégie sur des données de raisonnement précises et sur des méthodes de conversion graduelle, Apriel-H1 montre qu’accroître l’efficacité des modèles n’a pas à être un calvaire de ressources. Bien que chaque projet ait ses spécificités, agir sur les bons leviers en fonction des besoins du modèle reste une formule gagnante.

🔗 Source originaleLire l’article source
Partager : LinkedIn