Google dévoile PaliGemma, un modèle vision-langage innovant, capable de révolutionner l'interaction image/texte.
Avec la sortie de PaliGemma, Google continue de démontrer son savoir-faire en matière d’innovation dans le domaine des modèles vision-langage. PaliGemma n’est pas qu’un simple modèle; c’est une famille entière de réseaux développés pour comprendre et générer du texte à partir d’images avec une précision inégalée.
Architecture Innovante de PaliGemma : SigLIP et Gemma
PaliGemma repose sur une architecture avancée combinant SigLIP-So400m en tant qu’encodeur d’images et Gemma-2B en tant que décodeur de texte. SigLIP s’apparente à CLIP, s’exerçant à comprendre et encoder des informations visuelles et textuelles. Les modèles pré-entraînés de la gamme PaliGemma sont adroitement conçus pour des tâches comme le sous-titrage d’images ou la segmentation visuelle, rendant le processus de fine-tuning sur des tâches spécifiques plus fluide.
Trois Catégories de Modèles PaliGemma
Google a stratégiquement organisé PaliGemma en trois catégories : les checkpoints pré-entraînés (PT), les modèles mix, et les modèles fine-tunés (FT). Les modèles PT sont optimaux pour un fine-tuning versatile, tandis que les modèles mix sont réglés pour des inférences de généralités avec prompts en texte libre. Quant aux modèles FT, ils sont spécialement calibrés pour des benchmarks académiques spécifiques. Avec trois résolutions (224×224, 448×448, 896×896) et trois précisions (bfloat16, float16, float32), PaliGemma s’adapte aussi bien aux besoins de la recherche qu’à ceux industriels.
« L’architecture de PaliGemma redéfinit l’engagement modèle-langage, fournissant des réponses précises à des demandes complexes. »
Google AI
Exemples Concrets d’Utilisation : Sous-titrage et Question-Image
Grâce à leur versatilité, les mix checkpoints offrent des capacités étendues telles que le sous-titrage d’images et la réponse à des questions complexes basées sur des visuels. Par exemple, PaliGemma est capable de sous-titrer des images avec des prompts variés, tandis qu’en task détection, il peut localiser des entités dans une image en précisant les coordonnées de bounding box sous forme de tokens .
PaliGemma se distingue par son architecture avancée et ses capacités étendues en vision-langage, s’adressant à une multitude de besoins allant de la recherche académique aux applications industrielles.
Benchmarks et Performances
Les performances de PaliGemma sur des benchmarks std témoigne de sa puissance : sur VQAV2 avec un modèle ft, il atteint une précision de 85.64. Dans le cadre des tâches de questionnement scientifique, la précision s’envole à 95.93 sur le sous-ensemble ScienceQA Img. Les benchmarks de Google démontrent une nette supériorité sur divers axes, consolidant la réputation du modèle dans le paysage AI.
Google, par cette avancée, ancre encore un peu plus l’importance des modèles combinant efficacement traitement d’image et de texte. Pour ceux cherchant à implémenter PaliGemma dans des projets spécifiques, la même attention au détail devra être accordée, garantissant une intégration harmonieuse et efficace des capacités du modèle.