Assembler des LLMs de 20B avec RLHF sur GPU 24GB
Optimise des modèles linguistiques massifs grâce à RL et une seule GPU de 24GB.
Le monde du traitement de langage naturel est en pleine mutation. Fine-tuner un modèle de langage de 20 milliards de paramètres en utilisant uniquement une GPU de 24GB est désormais possible. Grâce à l’intégration des bibliothèques trl et peft, Hugging Face démocratise l’accès à ce qui semblait impossible il y a peu.
Repenser le tuning des modèles LLM avec RLHF
Les modèles de langage massif (LLM) associés à l’apprentissage par renforcement avec retour humain (RLHF) représentent la nouvelle frontière pour créer des agents conversationnels avancés. Traditionnellement, trois étapes cruciales structurent ce procédé : fine-tuning initial du modèle, création d’un modèle de récompense basé sur des annotations humaines, et enfin, raffinage du LLM avec ce modèle de récompense via l’apprentissage par renforcement.
« L’intégration de la RLHF dans le fine-tuning des LLMs offre une alternative compétitive aux méthodes conventionnelles. »
Hugging Face
L’importance des technologies de précision pour l’entrainement à grande échelle
L’un des plus grands défis est le besoin en mémoire GPU. Pour un seul milliard de paramètres, on parle de 4GB en float32, 2GB en float16, et 1GB en int8. Avec l’adoption de technologies telles que la multiplication matricielle en 8-bits et les adaptateurs, la taille des modèles peut être efficacement réduite, ouvrant la voie à l’entraînement de modèles massifs sur du matériel grand public.
Data parallelism : Une solution viable ?
Les paradigmes de parallélisme tels que le parallelisme de données, de pipeline et de tenseur facilitent l’entraînement de ces monstres computationnels. Avec le parallelisme de données, le modèle est répliqué sur plusieurs machines. Chez Hugging Face, la question de savoir jusqu’où nous pouvons aller avec uniquement le parallelisme de données a trouvé une réponse affirmative grâce à des techniques avant-gardistes.
Grâce à des innovations comme le trl et le peft, fine-tuner de vastes modèles linguistiques avec un matériel limité est désormais accessible. Cela ouvre des possibilités pour les développeurs et chercheurs équipés de GPUs de consommation courante.
Vers une optimisation durable des LLMs
La multiplication matricielle en 8-bits introduite par LLM.int8() lève les principales limitations associées aux modèles de grande échelle. Cela découpe les multiplications au niveau des couches linéaires, alternant entre float16 et int8 pour réduire l’impact sur la performance, tout en utilisant efficacement la mémoire disponible.
Cette convergence de technologies reflète une tendance plus large dans le domaine : repousser les frontières de ce qui est possible avec des ressources toujours plus accessibles. Pour les développeurs obsédés par l’optimisation, ces avancées offrent la possibilité de créer des IA toujours plus puissantes et innovantes.