Rendre les LLMs plus accessibles avec bitsandbytes et QLoRA
Découvre comment la quantification 4-bit et QLoRA changent la donne pour les modèles linguistiques massifs.
Prendre en main un modèle linguistique de grande taille (LLM) sur du matériel grand public reste un défi de taille. La méthode QLoRA, soutenue par la bibliothèque bitsandbytes, nous rapproche un peu plus d’une solution viable en permettant la quantification des modèles en 4-bit, rendant ainsi leur utilisation accessible à un public beaucoup plus large.
Comment QLoRA et bitsandbytes transforment l’accessibilité des LLMs
La méthode QLoRA, en collaboration avec bitsandbytes, offre une quantification 4-bit des LLMs, rendant possible l’affinage d’un modèle massif de 65 milliards de paramètres sur un GPU de 48 Go. Une prouesse qui réduit considérablement l’utilisation de la mémoire tout en maintenant des performances comparables aux modèles en 16-bit. L’utilisation de type de données optimisées comme le 4-bit NormalFloat (NF4) et des quantifications doubles sont les innovations clés ici.
Économie de ressources et performance : l’exemple Guanaco
Dans l’univers des LLMs, Guanaco se démarque en atteignant 99,3% des performances de ChatGPT avec seulement 24 heures de fine-tuning sur un GPU. Une révolution permise par l’intégration des innovations de QLoRA, qui économisent à la fois mémoire et temps sans sacrifier la qualité. Le modèle Guanaco montre qu’il est possible d’obtenir des résultats de pointe même avec des modèles plus petits que ceux utilisés traditionnellement pour les benchmarks de pointe.
QLoRA et bitsandbytes démocratisent l’accès aux LLMs en réduisant les besoins matériels sans compromettre les performances, rendant la technologie plus accessible à tous.
Adoption et applications pratiques de la quantification 4-bit
Parmi les exemples d’application, on trouve l’utilisation sur des plateformes comme Google Colab, où même des modèles aussi imposants que le GPT-neo-X 20B peuvent être fine-tunés sans coût prohibitif. Cela ouvre de nouvelles perspectives pour les développeurs qui souhaitent explorer les capacités des LLMs sans disposer d’une infrastructure massive.
« GPT-4 evaluations are a cheap and reasonable alternative to human evaluation. »
Younes Belkada et al., équipe de Hugging Face
Les données empiriques : mesurer la performance de manière fiable
Les évaluations par GPT-4 se révèlent être une option abordable et fiable pour remplacer les évaluations humaines. Mais attention, toutes les évaluations de chatbots ne sont pas créées égales. L’étude révèle des failles dans les benchmarks actuels, soulignant l’importance d’une analyse qualitative des performances des chatbots pour éviter des conclusions hâtives.
Finalement, si QLoRA ouvre la voie à des utilisations démocratisées des LLMs, elle indique également des directions futures pour affiner les critères de performances et ajuster les évaluations en conséquence. Une approche intégrant les évaluations automatisées pourrait ainsi permettre des progrès itératifs, réduisant le temps et les coûts liés à la recherche et développement.