vLLM V1 : Correction avant amélioration en renforcement RL
Transition de vLLM V0 à V1 : garantir la cohérence avant d'ajuster l'objectif de RL, un défi technique crucial pour ServiceNow.
Le passage de vLLM de la version 0 à la version 1 n’a pas été une simple mise à jour. Il s’est agi d’une réécriture substantielle nécessitant d’éliminer un phénomène connu comme le « train-inference mismatch ». Un problème qui se traduisait par des dynamiques de formation affectées par des écarts dans le calcul des logprobs durant les rollouts.
Assurer l’intégrité des logprobs dans vLLM V1
L’un des principaux défis rencontrés lors de cette transition fut la nécessité de s’assurer que les logprobs, ces probabilités logarithmiques cruciales utilisées pour évaluer et ajuster les modèles, soient traités correctement. Avec vLLM V1, les logprobs générés venaient directement des sorties brutes du modèle, contrairement à l’attente du système qui nécessitait une distribution post-processée.
Cela a nécessité des ajustements techniques précis, tel que l’activation du mode processed_logprobs pour éviter les biais de moyenne. Cela a permis aux ratios de politiques de rester centrés autour de 1, assurant la continuité de la trajectoire de formation.
Modifier les paramètres par défaut pour le runtime
Initialement, vLLM V1 intégrait de nouveaux paramètres par défaut, tels que la mise en cache de préfixes et la planification asynchrone. Ces ajouts, bien qu’innovants, ont ajouté une couche de complexité inutile dans le cadre de cette migration. Pour rétablir la parité avec V0, il a été nécessaire de désactiver explicitement certaines de ces fonctions, notamment la mise en cache de préfixe, qui pouvait introduire des incohérences lors des mises à jour de poids inflight.
Gestion des mises à jour de poids inflight
Dans un cadre de RL en ligne, la synchronisation des mises à jour de poids est cruciale. L’objectif était de reproduire le comportement de V0 où les mises à jour ne nécessitaient pas une invalidation explicite de l’état mis en cache. Avec V1, les mises à jour inflight nécessitaient une approche plus nuancée avec le mode « keep » et l’option clear_cache=False pour correspondre au modèle V0.
« La performance en apprentissage par renforcement repose sur une compréhension fine des dynamiques logprob et de la gestion de l’inférence inflight. »
ServiceNow AI, 2026
La migration de vLLM V0 à V1 a démontré qu’avant de pouvoir évoluer et s’améliorer, il est essentiel de s’assurer que les fondements techniques sont solides et que la parité avec les versions antérieures est maintenue.
En finalité, la migration de vLLM V0 à V1 chez ServiceNow a servi de point d’apprentissage majeur : les optimisations doivent être accompagnées d’une vérification rigoureuse de la cohérence des éléments critiques du pipeline.