Google Cloud C4, boosté par Intel, offre 70% de réduction TCO pour GPT OSS. Découvrez comment cette avancée impacte le coût et la performance.
Hugging Face et Intel ont collaboré pour offrir une avancée notable : une réduction de 70 % du coût total de possession (TCO) grâce à la nouvelle machine virtuelle C4 de Google Cloud utilisant les processeurs Intel Xeon 6. Ces améliorations touchent spécifiquement les performances de génération de texte du modèle OpenAI GPT OSS.
Amélioration du TCO avec Google Cloud C4
Google Cloud C4 promet une amélioration impressionnante du TCO, atteignant 1,7x par rapport aux versions antérieures. À titre de comparaison, chaque dollar dépensé rapporte jusqu’à 1,7 fois plus de performances en termes de tokens générés par seconde, par rapport aux précédentes instances C3. Ce gain n’est possible qu’en combinant les processeurs Intel Xeon 6, dont le codename est Granite Rapids, avec les optimisations spécifiques du modèle GPT OSS utilisées par Hugging Face.
La technologie derrière GPT OSS
GPT OSS se distingue par son architecture MoE, ou mélange d’experts, qui permet une spécialisation optimale. En activant uniquement une petite partie des « experts » pour chaque token, cette technologie optimise l’utilisation des ressources CPU. Grâce à l’optimisation de l’exécution des experts, l’efficacité computationnelle est maximisée, réduisant le gaspillage en FLOPs et augmentant ainsi l’utilisation.
Google Cloud C4 avec Intel Xeon 6 diminue drastiquement le TCO pour GPT OSS, du fait des optimisations de performance et du mélange d’experts de l’architecture MoE. Une véritable aubaine pour les applications gourmandes en génération de texte.
Comparaison des performances C3 versus C4
Les tests ont montré que les instances C4, tournant sur les processeurs Intel Xeon de 6ème génération, surpassent les C3 sur plusieurs aspects. Avec 144 vCPUs, les C4 arrivent à maintenir un throughput favorable, même sur de grandes tailles de lots. C’est une avancée significative par rapport aux 172 vCPUs des C3 qui étaient pourtant déjà hautes performances. La gestion efficace des cas d’usage à grande échelle est donc un point fort des C4.
« Les instances C4 offrent une performance supérieure pour chaque dollar investi, marquant un bond en avant pour les entreprises utilisant des technologies de génération de texte à haute intensité. »
Benchmark mené par Intel et Hugging Face
Configuration et environnement recommandés
Pour tirer pleinement parti de ces améliorations, une configuration bien pensée est essentielle. En utilisant des modèles comme unsloth/gpt-oss-120b-BF16 et des tâches avec des entrées et sorties de 1024 tokens, la génération de texte atteint un niveau de précision important grâce au format bfloat16. Ces configurations permettent d’assurer la reproductibilité et la stabilité nécessaire dans des environnements cloud complexes.
En conclusion, l’association de Google Cloud avec les nouveaux processeurs Intel Xeon 6 ne relève pas du simple coup de pub : c’est une avancée tangible pour les développeurs et entreprises utilisant GPT OSS. La réduction du TCO et l’amélioration de la performance ouvrent la voie à de nouvelles applications à haute intensité de calcul, tout en maîtrisant les coûts.