Stable Diffusion 3.5 débarque avec des améliorations clés pour générer des images encore plus rapidement et efficacement.
Le modèle de génération d’images Stable Diffusion 3.5 est désormais disponible sur Hugging Face Hub. Sur la base de son prédécesseur, il apporte des avancées significatives en matière d’architecture et de performance, particulièrement avec ses 8 milliards de paramètres.
Quelles sont les nouveautés architecturales de SD3.5 ?
Stable Diffusion 3.5 intègre des changements architecturaux notables. Parmi eux, la normalisation QK s’impose comme un standard pour l’entraînement des grands modèles, ainsi que l’utilisation de doubles couches de l’attention dans ses blocs MMDiT. Ces améliorations visent à optimiser les performances et la précision du modèle, conservant en parallèle les éléments éprouvés de la version précédente tels que les encodeurs de texte et le scheduler de bruit.
Utilisation de Stable Diffusion 3.5 avec Diffusers
Pour entrer dans le vif du sujet, l’installation de la dernière version de Diffusers est cruciale : pip install -U diffusers. Une fois installé, il te faut accepter l’accès au modèle via la page dédiée sur Hugging Face. Le modèle peut ensuite être téléchargé et utilisé avec un format torch.bfloat16, la méthode recommandée pour l’inférence.
« Stable Diffusion 3.5, avec ses 8 milliards de paramètres, repousse les limites du possible en génération d’images. »
Source: Hugging Face
Optimisation de l’inférence grâce à la quantization
L’optimisation de la mémoire est essentielle, surtout pour un modèle de cette taille. L’utilisation de la quantization BitsAndBytes permet de réduire encore la charge mémoire. Une illustration frappante de cet avantage est l’utilisation de la configuration NF4, facilitant l’exécution même sur du hardware consommateur. Cette approche est particulièrement pertinente pour les développeurs avec des configurations limitées en RAM.
Stable Diffusion 3.5 améliore l’efficacité de génération d’images avec des modèles plus grands et une meilleure optimisation mémoire, essentiel pour les architectures de grande échelle.
Entraînement de LoRAs avec quantization
Grâce à des outils comme bitsandbytes et peft, la fine-tune des grands modèles quantifiés devient accessible sur des GPU de 24 GB de VRAM. Cela ouvre de nouvelles perspectives pour les créateurs souhaitant personnaliser des modèles pré-entrainés sur des concepts ou styles spécifiques, tout en restant dans des contraintes matérielles réalistes.
Stable Diffusion 3.5, en repoussant les limites technologiques des modèles de diffusion, fournit aux créateurs et développeurs une infrastructure avancée. Toutefois, tenir compte des contraintes d’accès et des optimisations indispensables pour le matériel consommateur est crucial pour tirer le meilleur parti de cette technologie.