MolmoMotion : Prédiction des Mouvements 3D Guidée par le Langage
MolmoMotion redéfinit la prédiction des mouvements 3D grâce à des instructions textuelles claires et des points 3D précis.
Dans le domaine de la vision par ordinateur, comprendre comment un objet se déplacera à l’avenir est essentiel. Avec MolmoMotion, AllenAI introduit un modèle qui permet de prédire ces mouvements en 3D, guidé par des descriptions textuelles précises. Imagine un robot anticipant le mouvement d’un gobelet avant même de le manipuler. Ce n’est pas de la science-fiction, c’est la réalité qu’apporte MolmoMotion.
Un Modèle de Prédiction Révolutionnaire
MolmoMotion repose sur sa capacité à prédire les trajectoires futures des points 3D d’un objet, à partir de vidéos et d’instructions textuelles. Il surpasse les méthodes existantes en anticipant non seulement le mouvement futur mais en le faisant avec une précision accrue. Par exemple, face à une simple commande comme ‘Tourner le bol en bois sur la table’, MolmoMotion peut prédire avec une précision inégalée où se trouveront les points 3D du bol dans l’espace après autorotation.
Des Applications Diversifiées
Les cas d’usages de MolmoMotion sont vastes, allant de la planification robotique à la génération vidéo conforme à des trajectoires préétablies. Ses capacités sont soutenues par MolmoMotion-1M, une impressionnante base de données contenant 1,16 million de vidéos avec trajectoires 3D et descriptions d’actions. Grâce à cela, la communauté peut non seulement étudier et peaufiner le modèle, mais aussi l’adapter à des besoins spécifiques.
Une Représentation de Mouvement Unique
Le modèle utilise des points 3D attachés aux objets, offrant une vision class-agnostic et view-stable des mouvements. Cette approche permet à MolmoMotion de conserver une représentation cohérente peu importe les changements de perspective de la caméra. Ainsi, les trajectoires restent stables, qu’importe l’angle de vue, et sont directement utilisables pour des applications downstream comme les politiques robotiques.
MolmoMotion change la donne dans la prévision des mouvements 3D en couplant des données visuelles à des descriptions textuelles. C’est un outil puissant pour la robotique et d’autres applications visuelles.
MolmoMotion-AR et MolmoMotion-FM : Deux Variantes Puissantes
Entraîné en deux variantes, MolmoMotion optimise la prévision par étapes et anticipe différentes possibilités de trajectoires futures. MolmoMotion-AR, par exemple, encode chaque nouvelle coordonnée 3D en fonction des trajets antérieurs générés, assurant une transition fluide et précis. Pendant ce temps, l’approche flow-matching de MolmoMotion-FM intègre l’incertitude en ajustant les trajectoires continues en espace 3D.
« MolmoMotion redéfinit la perception du mouvement 3D en associant instructions langagières et dynamique visuelle. »
Kyle Wiggers, Ai2Comms
MolmoMotion n’est pas simplement un outil parmi d’autres, il marque une avancée significative dans le domaine de la modélisation et de la prédiction des mouvements en 3D. Alors que les robots deviennent de plus en plus indispensables, de telles innovations sont cruciales pour leur autonomie et efficacité.