Améliore l'efficacité mémoire des modèles diffusion Transformers grâce à Quanto. Économise de la mémoire sans sacrifier la qualité.
Les modèles de génération text-to-image basés sur les Transformers ont récemment gagné en popularité en raison de leur capacité à gérer des images haute résolution. Cependant, ces modèles, notamment ceux utilisant l’architecture Transformer pour le processus de diffusion, peuvent nécessiter jusqu’à 18.765 Go de mémoire GPU pour leur inférence, un obstacle majeur pour de nombreux utilisateurs de GPU grand public.
Réduction de l’empreinte mémoire avec Quanto
Quanto, un outil de quantification intégré à la bibliothèque Diffusers de Hugging Face, se présente comme une solution efficace pour optimiser l’utilisation de la mémoire sans compromettre la qualité de l’image générée. Grâce à la quantification en FP8, les modèles comme PixArt-Sigma et Stable Diffusion 3 ont démontré une réduction significative de l’utilisation de la mémoire tout en gardant une dégradation minimale de la qualité.
Quel impact réel sur la performance ?
En quantifiant un modèle avec Quanto, le besoin en mémoire pour une image haute qualité baisse de plus de 50 % pour certains cas. Par exemple, en combinant la quantification du backbone et du text encoder, la mémoire est passée de 11.547 Go à 5.363 Go, pour une latence légèrement augmentée de 1.540 à 1.601 secondes pour un batch de taille 1.
« La quantification permet une économie substantielle de mémoire tout en conservant presque toute la qualité du modèle pré-quantifié. »
Source d’analyse technologique
Plusieurs stratégies pour quantifier
Pour le modèle Stable Diffusion 3, il est recommandé de quantifier uniquement le premier et le troisième encodeur textuel. Cela s’explique par le fait que le second encodeur textuel ne réagit pas bien à la quantification, conduisant à une dégradation notable de la qualité.
La quantification via Quanto permet de réduire significativement l’empreinte mémoire des transformateurs de diffusion sans nuire fortement à la qualité de l’image. Cela ouvre la voie à une adoption plus large grâce à des exigences matérielles plus modestes.
Avantages de l’utilisation de bfloat16
Il est important de noter que l’utilisation de bfloat16 avec des GPU compatibles comme le H100 peut offrir des performances supérieures, en particulier pour des modèles comme PixArt, où les gains en vitesse sont plus appréciables.
En fin de compte, la quantification ne change pas fondamentalement les modèles de diffusion, mais offre une remarquable flexibilité en permettant une meilleure adaptabilité des modèles aux contraintes matérielles des utilisateurs. Cette avancée technique pourrait démocratiser l’accès à des technologies autrefois réservées à de puissantes machines professionnelles.