Kakao Brain libère ViT et ALIGN en open-source avec COYO
Kakao Brain libère ViT et ALIGN en open-source, rivalisant les modèles Google, formés sur COYO.
Kakao Brain frappe fort en dévoilant les modèles open-source ViT et ALIGN, entraînés sur le dataset COYO de 700 millions de paires image-texte. C’est une première dans le domaine, offrant une transparence totale aux développeurs et chercheurs en IA.
Nouveaux modèles open-source align
Les modèles ViT et ALIGN de Kakao Brain suivent l’architecture initiale proposée par Google, mais avec une différence majeure : ils utilisent le dataset open-source COYO. Cette avancée permet aux chercheurs de reproduire le travail de Google, qui demeure inaccessible en raison de data non publiques. Les résultats sont à la hauteur, sinon supérieurs sur certaines tâches par rapport aux versions de Google.
Performance comparée des modèles
Malgré un nombre de paires d’entraînement plus restreint (700 millions contre 1,8 milliard pour Google), l’ALIGN de Kakao rivalise avec l’ALIGN-B7-Base de Google sur des tâches comme la classification d’image avec KNN et des extractions MS-COCO. De même, le ViT-L/16 de Kakao offre des performances comparables à celles de Google sur ImageNet, confirmant l’intérêt de ces versions open-source pour la communauté.
Kakao Brain démocratise l’accès aux modèles ViT et ALIGN avec le dataset COYO, permettant une reproduction fidèle et accessible des performances Google, le tout en open-source.
COYO : un dataset unique en son genre
Le dataset COYO se distingue par ses 700 millions de paires image-texte, offrant plus de métadonnées que son homologue LAION 2B. Ses scores esthétiques et de watermark ajoutent une couche de contrôle granulaire, un atout majeur pour les utilisateurs. Son inclusion massive de données NSFW prône une transparence indispensable à une recherche approfondie.
Comprendre le fonctionnement de ViT et ALIGN
ViT (Vision Transformer) et ALIGN offrent un terrain neuf aux modèles de vision par leur approche : transformer une image en série de patchs comme le ferait un texte avec des séquences. ALIGN, quant à lui, exploite efficacement les paires image-texte bruyantes, optimisant l’apprentissage des représentations avec un loss contrastif. Ces innovations posent les bases d’une recherche sans limites, hors des contraintes des jeux de données propriétaires.
« Kakao Brain’s open-source models are a breakthrough in transparency and accessibility, setting new standards in AI development. »
Hugging Face Blog
Au final, avec ces modèles et ce dataset, Kakao Brain offre une alternative crédible et accessible aux géants du secteur, promouvant une culture de l’open-source sans compromis. Le potentiel de ces modèles fait déjà l’écho d’une dynamique d’adoption rapide dans la communauté tech. Un coup de pouce significatif vers une IA plus ouverte et accessible.