Découvrez comment RLOO optimise l'entraînement RLHF avec 50-70% de vRAM en moins et une vitesse doublée par rapport à PPO.
Si tu cherches à optimiser l’entraînement d’agent intelligent via l’apprentissage par renforcement, il est temps de prendre au sérieux le RLOO (REINFORCE Leave One-Out). Ce nouvel algorithme promet de réduire l’utilisation de la mémoire GPU de 50 à 70% par rapport au PPO (Proximal Policy Optimization) tout en doublant, voire triplant, la vitesse d’exécution pour des modèles allant jusqu’à 6.9 milliards de paramètres.
Pourquoi RLOO surpasse PPO en efficacité
PPO est reconnu pour ses performances, notamment dans l’entraînement des modèles comme GPT-4. Cependant, il impose de lourdes contraintes en termes de mémoire GPU, nécessitant de charger quatre exemplaires des modèles simultanément. RLOO simplifie ce processus avec seulement trois copies nécessaires, permettant ainsi d’éviter les erreurs ‘out-of-memory’ et de manipuler des lots plus grands. Le résultat ? Une efficacité accrue et un temps de convergence nettement réduit.
Les principes qui définissent le RLOO
Contrairement à PPO qui traite chaque token de complétion indépendamment, RLOO considère la complétion entière comme une seule action. En attribuant la récompense finale à l’ensemble de la séquence, RLOO réduit la sparsité des récompenses à laquelle PPO fait souvent face.
Implémentation et gains substantiels
Le RLOO utilise la perte REINFORCE, multipliant le produit du log-prob d’actions par (récompense – baseline). Cette méthode simplifie les calculs en évitant le recours à des estimations d’avantage basées sur un modèle de valeur, ce qui est indispensable avec PPO. En pratique, cela se traduit par une meilleure performance avec des modèles complexes sans surcharger les ressources.
RLOO propose une approche plus mémorisation et plus efficace pour l’entraînement RLHF. Idéal pour les développeurs cherchant à optimiser les ressources GPU tout en améliorant les performances.
« Avec RLOO, nous ramenons l’apprentissage par renforcement dans l’entraînement RLHF, en rendant l’exploration des méthodes RL en ligne plus accessible. »
Shengyi Costa Huang et al., Cohere
En fin de compte, le choix entre PPO et RLOO pourrait largement dépendre de tes contraintes matérielles et de tes besoins en termes de vitesse d’exécution. Mais en tant que développeur, RLOO semble offrir un compromis séduisant entre efficacité et performance.