Gemma 3 de Google redéfinit le cadre des modèles linguistiques ouverts avec son approche multimodale et multilingue élargie.
Google frappe un grand coup avec la sortie de Gemma 3, successeur de la série de modèles Gemma, marquant un tournant décisif vers la multimodalité et la multilingue. Avec des modèles allant de 1 à 27 milliards de paramètres et une fenêtre contextuelle pouvant atteindre 128k tokens, ce nouvel outil est taillé pour englober à la fois texte et images dans plus de 140 langues.
Gemma 3, un bond vers la multimodalité
Gemma 3 se distingue par sa capacité à traiter simultanément les données textuelles et visuelles grâce à son encodeur d’image SigLIP. Contrairement à son prédécesseur, seulement les modèles de 4, 12 et 27 milliards de paramètres embarquent ces capacités multimodales, illustrant nettement une avancée majeure. Par exemple, la technique de ‘pan and scan’ permet une gestion avancée des images en adaptant le recadrage et l’analyse de leurs détails, ce qui est crucial pour de nombreuses applications en vision par ordinateur.
Des contextes plus longs pour un traitement plus intelligent
L’extension de la fenêtre contextuelle à 128k tokens est une nouveauté majeure de Gemma 3, obtenue sans reconstruire l’entraînement des modèles dès la base. En exploitant des séquences de 32k dès le pré-entraînement, puis en les étendant uniquement en phase finale, Gemma 3 parvient à économiser d’importantes ressources de calcul tout en augmentant ses capacités d’analyse contextuelle sans plonger dans de profondes perplexités. Cette approche permet de traiter des documents plus longs et de réaliser des analyses plus poussées.
Gemma 3 élève la barre des capacités des LLMs en adoptant une approche multimodale et multilingue. Avec un contexte élargi et des performances supérieures, il ouvre de nouvelles perspectives pour les applications avancées d’IA.
Maîtriser la multitude des langues
Avec Gemma 3, Google double la dose de données multilingues intégrées dans les datasets d’entraînement. Ce sont maintenant plus de 140 langues qui sont prises en charge par les grands modèles, avec des optimisations significatives pour des langues complexes comme le chinois, le japonais, et le coréen, grâce à l’utilisation d’un tokenizer SentencePiece enrichi de 262k entrées. Ainsi, l’accessibilité au modèle s’élargit considérablement, rendant Gemma 3 pertinent à l’échelle mondiale.
Des évaluations qui parlent
Les performances de Gemma 3 se traduisent concrètement par des scores éloquents. Son classement Elo de 1339 sur la LMSys Chatbot Arena le place parmi les 10 meilleurs modèles, comparables à des modèles fermés comme o1-preview. Les scores de benchmarks comme MATH (69,0) et FACTS Grounding (74,9) démontrent ses prouesses analytiques et sa précision factuelle.
« Gemma 3 dépasse ses prédécesseurs non seulement en termes de spécifications techniques, mais aussi en ouvrant des horizons nouveaux pour les utilisateurs à travers le monde. »
Rapport technique de Gemma 3
En conclusion, Gemma 3 ne se contente pas de progresser par rapport à Gemma 2; il redéfinit le cadre des possibilités pour les LLMs. Dans un univers où la compréhension contextuelle, la gestion multimodale et la couverture multilingue sont essentielles, Gemma 3 s’érige en tant que modèle polyvalent et puissant, prêt à répondre aux défis contemporains des données complexes et variées.