ConTextual : Évaluer les modèles multimodaux sur des scènes textuelles riches

ConTextual : Évaluer les modèles multimodaux sur des scènes textuelles riches

🗓 06 Avr 2026 · ⏱ 7 min de lecture · 🤖 Généré par IA

ConTextual teste la capacité des modèles multimodaux à raisonner sur des images textuelles riches. Découvrez les enjeux et résultats clés.

Les modèles modernes parviennent désormais à comprendre efficacement le texte isolé. Mais face à une image chargée de texte, comment s’en sortent-ils ? ConTextual, un ensemble de données créé par des chercheurs de l’Université de Californie à Los Angeles, met à l’épreuve cette capacité, en confrontant les modèles à des images textuelles riches pour tester leur raisonnement contextuel. Un défi crucial pour des applications du monde réel comme les assistants IA ou les outils d’aide aux malvoyants.

ConTextual : un test grandeur nature pour les LMMs

ConTextual propose un ensemble de 506 instructions tests adressées aux modèles multimodaux (LMMs) visant à évaluer leur capacité à interpréter des scènes riches en texte. Les situations couvrent des cas concrets : lecture de l’heure, navigation, ou encore interprétation de mèmes, chacune nécessitant un raisonnement collaboratif entre indices textuels et visuels. La diversité des scénarios – allant de l’application mobile aux infographiques – est pensée pour refléter la complexité du monde réel.

Performance des LMMs : une analyse critique

Dans les expériences initiales menées, 13 modèles ont été évalués. On les divise en trois groupes : les approches augmentées par des modèles de langage de grande taille (LLM), les modèles propriétaires comme GPT4V, et enfin les open-source tels que LLaVA-v1.5-13B. Les résultats sont contrastés. Par exemple, GPT-4V a montré des limites claire dans la lecture de tableaux d’infographies, alors qu’il surpasse les humains en raisonnement abstrait.

« GPT-4V pourrait dépasser le raisonnement humain en contexte abstrait, probablement grâce à son exposition à des mèmes et des données de citations. »

Analyse des performances des modèles

Les défis : vers un meilleur alignement vision-langage

Les modèles open-source montrent également des lacunes, surtout dans les tâches spécifiques telles que la lecture du temps ou la navigation. Le point clé pour l’avenir ? Accroître la diversité des données d’entraînement. Les modèles augmentés avec LLM, quant à eux, affichent une faible approbation de la part des humains (17.2%) lorsqu’il s’agit de résoudre des tâches nécessitant un alignement précis entre vision et texte.

💡 À retenir

Les modèles multimodaux peinent à comprendre des scènes riches en texte, avec des applications pratiques majeures en jeu. ConTextual offre un regard crucial sur leurs forces et faiblesses, poussant à des améliorations ciblées.

Perspectives pour l’avenir des LMMs

Le travail sur ConTextual ouvre la voie à des pistes d’amélioration prometteuses : développement d’encodeurs d’images plus avancés, création de descriptions d’images précises, et surtout, facilitation d’un alignement vision-langage fin et nuancé. Ces innovations permettront une compréhension plus efficace des scènes textuelles riches.

ConTextual n’est pas une fin en soi, mais un appel à collaborer pour progresser collectivement. Afin de pousser les LMMs vers de nouvelles frontières, les soumissions des modèles sont encouragées, et les chercheurs sont invités à participer et explorer de nouvelles approches.

🔗 Source originaleLire l’article source
Partager : LinkedIn