Optimiser NVIDIA Cosmos 2.5 pour la génération vidéo robotique
Explore comment le fine-tuning de Cosmos 2.5 optimise les vidéos robotiques via LoRA/DoRA. Découvrez les méthodes et avantages pour les développeurs.
Imagine pouvoir générer des vidéos réalistes de robots accomplissant des tâches complexes simplement à partir de textes ou d’images. C’est ce que permet de faire NVIDIA Cosmos Predict 2.5, un modèle de vidéo monde à grande échelle. Mais pour vraiment exploiter son potentiel, les développeurs doivent l’ajuster à des domaines spécifiques comme la manipulation robotique. C’est là que les techniques de fine-tuning comme LoRA et DoRA entrent en jeu, rendant cette optimisation non seulement possible mais également pratique.
LoRA et DoRA : Réduire le coût du fine-tuning
Le modèle Cosmos Predict 2.5, avec ses 2 milliards de paramètres, nécessite un fine-tuning ciblé pour des tâches spécifiques. Or, ajuster un tel modèle est coûteux, aussi bien en ressources qu’en temps, et comporte le risque d’oublier des informations générales. C’est ici que LoRA (Low-Rank Adaptation) et DoRA (Directional Rank Adaptation) interviennent, en insérant de petits modules d’adaptation entraînables dans le modèle de base. Cela réduit non seulement la charge mémoire mais rend aussi le processus réalisable sur un seul GPU, permettant de changer les paramètres selon le domaine d’application à l’inférence.
Exploiter la puissance des GPU pour l’entraînement
Pour un fine-tuning réussi de Cosmos Predict 2.5, il est recommandé de disposer d’au moins un GPU de 80 Go, bien que l’utilisation de 8× H100s accélère les itérations. Les bibliothèques diffusers et accelerate facilitent ce processus, que ce soit pour un entraînement mono ou multi-GPU. L’installation des dépendances nécessaires sur ta machine s’effectue via pip : pip install -U "diffusers[torch]" transformers accelerate peft wandb. Ce setup assure une efficacité maximale lors de l’entraînement du modèle avec des jeux de données complexes et volumineux.
LoRA et DoRA permettent un fine-tuning efficace et moins coûteux de Cosmos Predict 2.5, rendant l’adaptation du modèle possible sur des configurations GPU limitées. Une avancée majeure pour les développeurs en robotique.
Entraînement et gestion des données
La préparation des données est cruciale. Les ensembles de données sont divisés en 92 vidéos de manipulation robotique pour l’entraînement et 50 paires (prompt, image) pour les tests. Ces prompts déclenchent le modèle à générer des vidéos basées sur un texte et une image initiale. Grâce au script download_and_preprocess_datasets.sh, ce processus se simplifie considérablement, assurant une organisation nette des dossiers de données.
Optimisation des performances avec des pertes rectifiées
Le modèle utilise une méthode de rectified flow pour s’entraîner, prévoyant la vitesse qui transporte un échantillon de bruit vers les données d’origine. Ce principe s’applique à chaque étape avec un niveau de bruit échantillonné, où la perte MSE (Mean Squared Error) se calcule uniquement sur les phases non conditionnées. En d’autres termes, seules les parties non touchées par le conditionnement initial (les deux premières images du flux vidéo) sont optimisées, assurant précision et fiabilité du modèle final.
« Optimiser les paramètres LoRA dans Cosmos 2.5 permet de maximiser la flexibilité des applications robotiques sans perte de qualité des données. »
Ting-Yun Chang, NVIDIA
Cosmos Predict 2.5, lorsqu’il est optimisé correctement, transforme non seulement la capacité des modèles vidéo mais élève aussi le potentiel des applications robotiques. Grâce à LoRA et DoRA, les barrières traditionnelles de l’entraînement à grande échelle sont réduites, ouvrant un monde de possibilités pour les développeurs et les chercheurs.