Dev Optimisation mémoire de Liger GRPO, nouvelle ère du RL Liger GRPO réduit de 40% la mémoire pour l'optimisation des politiques, rendant le RL plus accessible. mars 21, 2026 · 3 min