SigLIP 2 : Avancées dans les encodeurs visio-linguistiques

SigLIP 2 : Avancées dans les encodeurs visio-linguistiques

🗓 24 Mar 2026 · ⏱ 8 min de lecture · 🤖 Généré par IA

SigLIP 2 redéfinit la performance des encodeurs vision-langue avec de nouveaux objectifs de formation.

Google vient de sortir une nouvelle gamme d’encodeurs vision-langue multilingues appelée SigLIP 2, visant à surpasser ses prédécesseurs avec des objectifs de formation améliorés pour une compréhension sémantique affinée et une localisation précise.

Nouveaux objectifs de formation pour SigLIP 2

SigLIP 2 dépasse la précédente version en intégrant de nouveaux objectifs de formation tels que la compréhension sémantique et la localisation. Par rapport aux modèles SigLIP précédents, SigLIP 2 offre des performances accrues en classification sans apprentissage, en récupération image-texte, et en transfert de représentations visuelles pour les modèles VLM. Les ajouts tels que Global-Local Loss et Masked Prediction Loss renforcent encore davantage l’acuité spatiale et la précision locale du modèle.

Pourquoi la détection locale est-elle cruciale ?

En vision par ordinateur, la capacité à comprendre l’interaction locale précise des éléments dans une image est cruciale. SigLIP 2 intègre un décodeur de texte qui prédit des légendes globales et spécifiques aux régions. C’est une amélioration par rapport à l’approche de loss contrastif de CLIP qu’utilisait SigLIP, en le remplaçant par du sigmoid loss et en ajoutant une prédiction masquée.

💡 À retenir

SigLIP 2 améliore la précision locale et l’adaptabilité à différentes résolutions, redéfinissant le potentiel des encodeurs vision-langue.

Adaptabilité à des résolutions variées

Les modèles d’image sont sensibles aux résolutions et ratios des images. SigLIP 2 intègre des variantes avec des résolutions fixes et dynamiques (via la technologie naflex), permettant une flexibilité accrue dans les tâches aval. Par exemple, les variantes comme le SigLIP2-base-patch16-naflex peuvent ajuster dynamiquement la résolution, inspiré par la technologie FlexiViT.

Performance des modèles à différents volumes

Les modèles SigLIP 2 sont proposés en différentes tailles : base (86M), large (303M), optimisé pour la forme (400M), et géant (1B), chacun adapté selon les besoins de performance et de stockage. Cette diversité répond aux diverses exigences des applications en termes de traitement des données et d’efficacité.

« La flexibilité des modèles SigLIP 2 en fait des outils puissants pour de nombreuses applications de vision immergées dans des environnements multilingues. »

Source article Hugging Face

En conclusion, SigLIP 2 prouve que le raffinement des objectifs de formation peut transformer la performance des modèles vision-langue. En améliorant l’encodeur textuel et en ajoutant des objectifs comme la prédiction masquée, SigLIP 2 établit de nouveaux standards. Il sera intéressant de voir comment ces innovations se traduiront dans des applications réelles plus efficaces et diversifiées.

🔗 Source originaleLire l’article source
Partager : LinkedIn