Optimisation des IA Génératives sur CPU Intel avec SmoothQuant
Découvrez comment les modèles IA petit format vont transformer l'efficacité sur CPU, grâce à SmoothQuant et à la quantification 8 bits.
Les modèles de langage géants (LLM) révolutionnent le machine learning grâce à leur architecture Transformer, mais leur taille impose des contraintes de calculs coûteuses. Avec plus de 100 milliards de paramètres pour certains, ces modèles nécessitent souvent des GPUs haut de gamme, rendant leur utilisation prohibitive en termes de coût pour de nombreuses entreprises.
La quantification : une solution aux contraintes de taille des LLMs
La quantification, un procédé de compression des modèles, promet de résoudre ce problème en réduisant la taille et la latence des modèles sans sacrifier leur précision. En transformant les modèles en leur équivalent 8 bits, la quantification simplifie les opérations de calcul, les rendant ainsi plus rapides avec une efficacité doublée. Pour les développeurs, des outils tels que la bibliothèque Hugging Face Optimum Intel facilitent cette transition.
Évolution des LLMs avec SmoothQuant
Des études récentes ont démontré que la quantification traditionnelle ne fonctionnait pas toujours efficacement avec les LLMs, en raison de la présence de valeurs extrêmes. SmoothQuant, une technique de dernière génération, a été conçue pour pallier cette limitation. En transformant conjointement les poids et les activations, elle permet une quantification 8 bits des LLMs comme l’OPT-13B tout en maintenant leur qualité de modèle.
SmoothQuant révolutionne l’utilisation des LLMs sur Intel CPU, rendant possible des expériences IA de qualité sur des plateformes plus accessibles et moins coûteuses.
Avantages concrets de l’application de SmoothQuant
Les modèles tels que OPT et BloomZ, une fois quantifiés, deviennent environ deux fois plus petits, réduisant ainsi drastiquement le temps de latence en inférence. Avec une vidéo démontrant la génération de texte en temps réel sur une CPU Intel Sapphire Rapids, on peut mesurer l’impact de cette innovation sur l’efficacité des applications basées sur les LLMs.
« More companies would be better served focusing on smaller, specific models that are cheaper to train and run. »
Clement, CEO de HuggingFace
Q8-Chat : une expérience de chat optimisée
Grâce aux progrès de la quantification, des modèles plus petits tels que Q8-Chat à la ChatGPT émergent, offrant des solutions économiques et efficaces, optimisées pour fonctionner sur des plateformes de CPUs plus traditionnelles. Cette avancée permet aux entreprises de bénéficier de capacités d’IA performances sans le besoin de gros équipements coûteux.
La stratégie des modèles petits formats positionne les entreprises à la pointe, avec une flexibilité accrue et un meilleur rapport coût-performance. Cette approche pave la voie pour un futur où les modèles de langages performants sont accessibles à un public élargi.