NVIDIA Cosmos Reason 2 booste l'intelligence physique avec un modèle vision-langage puissant, optimisé pour des tâches complexes.
NVIDIA a récemment sorti le modèle Cosmos Reason 2, marquant un bond significatif dans la capacité de l’IA à appréhender le monde physique. Ce modèle de vision-langage dépasse ses prédécesseurs en précision, car il domine les classements Physical AI Bench et Physical Reasoning, établissant de nouveaux standards pour la compréhension visuelle.
Cosmos Reason 2 : Un modèle vision-langage amélioré
Les modèles de vision-langage ont longtemps excellé dans la reconnaissance d’objets et de motifs, mais leur limite était atteinte face à des tâches complexes, comme anticiper plusieurs étapes à l’avance ou gérer l’incertitude. Cosmos Reason 2 adresse ces lacunes en ajoutant une dimension de compréhension du bon sens, essentielle pour résoudre des problèmes de manière séquentielle. Avec des capacités accrues de compréhension spatio-temporelle et un nombre de tokens en entrée multiplié par seize par rapport à la version précédente, les possibilités sont désormais étendues.
Cas d’utilisation pratiques pour les entreprises
Les applications potentielles de Cosmos Reason 2 touchent tous types d’industries. Pour les vidéos analytiques, par exemple, ce modèle permet une extraction d’informations précieuses à partir de vastes volumes de données vidéo, grâce à des fonctionnalités comme l’OCR et la localisation de points en 2D/3D. SalesForce transforme ainsi la sécurité au travail en analysant les vidéos capturées par des robots Cobalt. En termes de planification et de raisonnement, les robots bénéficient d’une coordination améliorée grâce à des trajectoires précises et à une capacité de prise de décision délibérée.
Cosmos Reason 2 représente une avancée déterminante pour les modèles de vision-langage en matière d’AI physique. Sa capacité d’adaptation à de nouveaux scénarios le rend indispensable pour les entreprises explorant la robotique avancée et l’analyse vidéo à grande échelle.
Intégration dans les plateformes et services Cloud
Cosmos Reason 2 n’est pas uniquement une prouesse technique : il est conçu pour être déployé facilement à travers divers environnements, allant du edge au cloud. Avec des modèles de 2 à 8 milliards de paramètres, il est adapté à une multitude de cas d’application. L’intégration prochaine dans les plateformes comme AWS, Google Cloud et Azure promet de démocratiser son accès et son utilisation.
« Cosmos Reason 2 est un modèle crucial pour améliorer la sécurité et l’efficacité dans divers secteurs grâce à ses capacités avancées de raisonnement et de vision. »
Extrait du communiqué de NVIDIA
Les bénéfices concrets dans le domaine de l’autonomie et de la robotique
Les améliorations significatives en matière de raisonnement et d’adaptation sont particulièrement bénéfiques pour le développement de systèmes autonomes et robotiques. Par exemple, Uber utilise Cosmos Reason 2 pour optimiser la légende vidéo des données de formation des véhicules autonomes, offrant une identification efficiente des scénarios de conduite critique. Le potentiel d’adaptation du modèle, illustré par l’amélioration des scores BLEU et MCQ-based VQA, démontre son impact dans le domaine de l’AV.
Cosmos Reason 2 symbolise une étape précieuse vers des systèmes d’IA qui non seulement perçoivent le monde, mais le comprennent et y agissent de manière informée et intelligente. La capacité de se déployer sur divers environnements et de s’intégrer dans des infrastructures existantes en fait un atout incontournable pour toute entreprise cherchant à exploiter la pleine puissance de l’IA physique.