Aya Vision : Modèles Multilingues pour Images et Langues

Avec l’introduction des modèles Aya Vision de 8B et 32B paramètres, Cohere For AI franchit une étape majeure dans l’IA multimodale et multilingue. Ces modèles visent à surmonter le défi colossal de combiner la compréhension du langage et de la vision à travers 23 langues, surpassant même des modèles bien plus grands comme Llama-3.2 90B Vision.

Performances Supérieures des Modèles Aya Vision

Le modèle Aya Vision 32B surpasse des systèmes de deux fois sa taille, tels que Llama-3.2 90B et Molmo 72B, avec des taux de victoire allant de 50% à 72% sur les benchmarks AyaVisionBench et mWildVision. Le modèle plus compact Aya Vision 8B, quant à lui, établit de nouveaux standards dans sa catégorie, surpassant ses pairs avec des taux de victoire jusqu’à 81% sur les mêmes benchmarks.

Architecture et Formation de Aya Vision

Aya Vision utilise une technique novatrice de redimensionnement dynamique pour traiter les images à haute résolution, en les découpant en plusieurs tuiles afin d’extraire des caractéristiques riches. Cette méthode est couplée à un processus d’échantillonnage réduit, Pixel Shuffle, qui diminue par quatre le nombre de tokens d’image, alignés ensuite sur les embeddings du modèle de langage via un connecteur vision-langage.

💡 À retenir

Aya Vision établit de nouveaux standards dans l’IA multilingue et multimodale, surclassant des concurrents bien plus grands grâce à une architecture optimisée.

Enrichissement des Données Multimodales

Pour garantir des performances fortes dans les langues sous-représentées, Aya Vision utilise des annotations synthétiques et traduit d’énormes volumes de données vers 23 langues. Cela évite les artefacts de traduction et maintient la précision et la fluidité des textes, optimisant à la fois l’alignement entre vision et texte sur les ensembles de données multilingues.

La Fusion des Modèles pour une Performance Optimisée

L’intégration de la fusion de modèles permet à Aya Vision de combiner les forces des modèles de langage et vision, augmentant ainsi les capacités génératives. Cela se traduit par des améliorations de 70% en taux de victoire sur AyaVisionBench, illustrant comment cette approche renforce l’excellence dans les tâches conversationnelles.

« Un modèle de vision-langage doit exceller non seulement dans la compréhension d’images, mais aussi dans le contexte conversationnel. »

Aya Vision Research Team

En conclusion, Aya Vision ne se contente pas de rivaliser avec ses contemporains—il les surpasse en combinant innovation technique et optimisation des données. Cohere For AI, avec sa stratégie open-weight, pave la voie à de futures avancées dans l’IA multilingue et multimodale.

🔗 Source originaleLire l’article source

Aya Vision : Modèles Multilingues pour Images et Langues

Performances Supérieures des Modèles Aya Vision

Architecture et Formation de Aya Vision

Enrichissement des Données Multimodales

La Fusion des Modèles pour une Performance Optimisée

Laisser un commentaire Annuler la réponse

Prenez une longueur d'avance.