Google Gemma : les nouveaux LLMs open source en détails
Découvrez comment Google Gemma se distingue parmi les LLMs avec des versions adaptées à divers usages et leur intégration chez Hugging Face.
Google vient de lancer Gemma, sa nouvelle famille de modèles open-source LLM (Large Language Model), et l’impact promet d’être significatif. Avec des variantes de 7 milliards et 2 milliards de paramètres, Gemma se distingue non seulement par sa performance, mais aussi par sa flexibilité d’utilisation sur différents types de matériels, qu’il s’agisse de GPU de taille consommateur ou d’applications sur CPU.
Gemma : une avancée mesurée parmi les LLMs
En compétition avec d’autres modèles notoires comme LLama 2 et Mistral 7B, Gemma montre des performances significatives. Le modèle Gemma-7B obtient un score de 63.75 sur le Leaderboard des LLMs, le plaçant en bonne position parmi les modèles à largeur similaire. En revanche, Gemma-2B convient mieux aux applications moins gourmandes en ressources, bien qu’il ne surpasse pas certains concurrents tels que Phi 2 dans sa classe de poids.
Intégration transparente avec Hugging Face
Hugging Face a collaboré étroitement avec Google pour s’assurer que Gemma s’intègre parfaitement dans son écosystème. Les modèles sont disponibles sur le Hub avec une intégration dans Transformers, permettant un entraînement et une inférence faciles. Cette intégration inclut des outils comme le format safetensors et l’utilisation de bitsandbytes pour la quantification en 4 bits.
Google renforce sa position dans l’open-source AI avec Gemma, offrant une flexibilité d’intégration et une performance comparable aux meilleurs.
Des modèles conçus pour la polyvalence
Gemma est proposé en versions de base et optimisées pour l’instruction. Le format d’instruction simple permet une utilisation immédiate pour les conversations structurées, comme démontré dans Hugging Chat. Exécutables sur des matériels variés, ces modèles offrent une longueur de contexte allant jusqu’à 8K tokens, prêtant à des cas d’emploi diversifiés.
« Gemma est une avancée remarquable qui s’intègre parfaitement dans le cadre actuel des modèles AI open-source, offrant des possibilités illimitées. »
Philipp Schmid, Hugging Face
Utilisation pratique avec Transformers 4.38
Grâce à la version 4.38 de Transformers, utiliser Gemma devient un jeu d’enfant, même sur des GPU grand public comme la 3090. Les utilisateurs peuvent quantifier les modèles en 8 ou 4 bits pour une exécution optimisée, et les évaluations indiquent un potentiel de performances quadruplées grâce à torch.compile() avec CUDA graphs.
En conclusion, Gemma de Google marque une étape importante dans les modèles de langage open-source, alliant innovation et interopérabilité. Pour quiconque cherchant à tirer parti des LLMs à grande échelle, Gemma offre une option robuste et adaptable à divers besoins.