Découvertes IA RLOO : une alternative efficace à PPO pour l’entraînement RLHF Découvrez comment RLOO optimise l'entraînement RLHF avec 50-70% de vRAM en moins et une vitesse doublée par rapport à PPO. avril 2, 2026 · 2 min