ConTextual : Évaluer les modèles multimodaux sur des scènes textuelles riches
ConTextual teste la capacité des modèles multimodaux à raisonner sur des images textuelles riches. Découvrez les enjeux et résultats clés.
·
3 min