AutoGPTQ et Transformers : rendre les LLMs plus légers
Découvrez comment Hugging Face simplifie l'accès aux modèles de langage massifs avec AutoGPTQ, optimisant l'utilisation des ressources matérielles.
Les modèles de langage massifs, capables de comprendre et de générer des textes ressemblants à ceux produits par des humains, imposent des exigences croissantes aux infrastructures matérielles pour leur apprentissage et déploiement. 🌐 Face à ces défis, Hugging Face a intégré la bibliothèque AutoGPTQ dans Transformers, permettant de quantiser et d’exécuter ces modèles en précision 8, 4, 3 ou même 2 bits. Cette avancée n’entraîne qu’une dégradation négligeable de l’exactitude avec la quantification 4-bit, tout en fournissant des vitesses d’inférence comparables à la ligne de base fp16 pour de petites tailles de lots.
Réduction de la charge matérielle avec AutoGPTQ
AutoGPTQ vise à démocratiser l’accès aux modèles de langage en réduisant significativement les exigences matérielles. Pour illustrer cela, comparons : le modèle BERT (336M) quantifié avec la méthode OBQ prend 2 heures GPU, tandis que le modèle Bloom (176B) quantifié avec GPTQ est complété en moins de 4 heures GPU. La réduction des coûts de mémoire est également notable ; la quantification int4 offre jusqu’à 4x d’économie de mémoire grâce à la déquantification proche de l’unité de calcul dans un noyau fusionné.
AutoGPTQ : une librairie polyvalente
Contrairement à des initiatives centrées exclusivement sur l’architecture Llama, la librairie AutoGPTQ couvre un éventail plus large d’architectures de transformateurs. Par conséquent, Hugging Face offre une API intégrée dans 🤗 Transformers pour rendre la quantification des LLMs accessible à tous. Les modèles quantifiés peuvent non seulement être sérialisés, mais également partagés sur la plateforme de Hugging Face, Hub, facilitant la collaboration et la diffusion. De plus, GPTQ réduit les besoins en mémoire pour exécuter des LLMs tout en maintenant une latence d’inférence comparable à celle de FP16.
Intégration native des modèles GPTQ dans Transformers
Avec l’installation d’AutoGPTQ et d’Optimum, exécuter des modèles GPTQ devient aussi simple que d’importer AutoModelForCausalLM avec les Transformer API. Les utilisateurs bénéficient d’une réduction considérable des ressources requises, rendant les capacités avancées des LLMs plus accessibles pour des applications variées. Cela s’aligne avec la mission de Hugging Face de démocratiser l’accès aux technologies d’apprentissage automatique avancées.
AutoGPTQ et Transformers rendent possible l’exécution de LLMs massifs sur du matériel grand public, réduisant les exigences matérielles sans compromettre les performances.
« AutoGPTQ permet une couverture fluide d’une large gamme d’architectures de transformateurs. »
Article de source
En fin de compte, AutoGPTQ et son intégration dans Transformers incarnent les efforts continus de Hugging Face pour rendre la technologie de pointe des modèles de langage plus accessible et pratique pour les développeurs du monde entier. Avec ces outils, l’écosystème de l’apprentissage automatique devient plus inclusif, ouvrant la voie à l’innovation à tous les niveaux.