ConTextual : Évaluer les modèles multimodaux sur des scènes textuelles riches
ConTextual teste la capacité des modèles multimodaux à raisonner sur des images textuelles riches. Découvrez les enjeux et résultats clés.
ConTextual teste la capacité des modèles multimodaux à raisonner sur des images textuelles riches. Découvrez les enjeux et résultats clés.
Découvrez Docmatix, le plus grand dataset jamais conçu pour améliorer les performances en Document VQA, avec 2.4 millions d'images.
CinePile 2.0 optimise les datasets vidéo QA avec le raffinage adversarial, améliorant la question diversité et difficulté.
Découvrez comment un nouveau dataset open source révolutionne la génération d'images par IA.
Découvrez L2D, le plus vaste dataset pour véhicules autonomes, une avancée clé pour l'IA en robotique.
NVIDIA frappe un grand coup avec un dataset de 6 millions d'exemples, couvrant cinq langues. Avancée notable pour le raisonnement automatique multilingue.