Découvrez Pollen-Vision, une librairie open-source pour des modèles vision zero-shot en robotique, facilitant la manipulation autonome.
Dans le domaine de la robotique, la capacité des machines à percevoir et interagir avec leur environnement est cruciale. C’est exactement ce que propose Pollen-Vision, une librairie open-source destinée à intégrer des modèles de vision zero-shot dans des robots autonomes. Elle facilite la détection d’objets 3D sans nécessiter de phases d’apprentissage fastidieuses.
Pollen-Vision : Une approche modulaire pour la robotique
Pollen-Vision est conçue de manière modulaire, permettant de combiner différents modèles de vision pour créer un pipeline de détection d’objets en 3D. Grâce à cette approche, les robots peuvent estimer la position des objets en trois dimensions (x, y, z), facilitant ainsi des tâches de préhension robotique basiques, essentiellement sans apprentissage préalable.
Des modèles zero-shot puissants et temps réel
La librairie intègre plusieurs modèles innovants comme OWL-VIT de Google Research pour la localisation 2D conditionnée par le texte et Mobile Sam de Meta AI pour la segmentation d’images zero-shot. RAM d’OPPO Research complète ces outils en taguant les images, ce qui optimise le pipeline tout en garantissant des performances élevées. Par exemple, OWL-VIT affiche des temps d’inférence variés, allant de 75ms à 650ms par image selon le nombre d’objets détectés sur un GPU RTX 3070.
« Pollen-Vision simplifie la mise en place de la perception robotique autonome grâce à des modèles vision zero-shot performants. »
Pollen Robotics
Application concrète : la manipulation d’objets inconnus
Avec les masques de segmentation d’objets, il est possible d’évaluer précisément la position (u, v) des objets dans l’espace pixel grâce au calcul du centroïde du masque binaire. Intégrer ces informations avec des valeurs de profondeur permet de convertir ces coordonnées en une position 3D utilisable par le robot pour effectuer des tâches de saisie précises.
Pollen-Vision propose un cadre open-source pour intégrer des modèles zero-shot en robotique, offrant aux développeurs la possibilité d’améliorer la perception et la préhension autonomes sans apprentissage préalable complexe.
Défis et perspectives futures de Pollen-Vision
Bien que Pollen-Vision atteigne déjà plusieurs objectifs importants, des défis subsistent, tels que l’incohérence temporelle et spatiale lors de la détection. Le développement futur intégrera le suivi de points pour renforcer la stabilité des détections et élargira les techniques de saisie au-delà de la simple préhension frontale, avec l’objectif d’accroître la vitesse globale de traitement.
Pollen-Vision représente une avancée significative vers l’autonomie des robots. En offrant des outils robustes et accessibles pour le développement rapide de capacités de vision, la librairie ouvre de nouvelles possibilités pour les développeurs cherchant à enrichir les capacités de leurs robots dans des environnements variés.