Florence-2 : fine-tuning du modèle vision-langage de Microsoft

🗓 02 Avr 2026 · ⏱ 6 min de lecture · 🤖 Généré par IA

Découvrez comment Florence-2, le modèle vision-langage de Microsoft, élève le fine-tuning au niveau supérieur pour les développeurs.

Florence-2, le modèle de vision-langage de Microsoft sorti en juin 2024, change la donne par sa taille phénoménalement réduite (0,2B et 0,7B) tout en offrant des performances robustes. De l’annotation d’images à la détection d’objets, ce modèle couvre beaucoup de terrain. Mais que faire si votre domaine spécifique n’est pas pris en charge ? C’est là que le fine-tuning entre en scène, comme le démontre avec brio l’exemple du DocVQA.

Les secrets de l’architecture Florence-2

Contrairement à ce que l’on pourrait penser, Florence-2 ne brille pas par la complexité de son architecture mais par la richesse de son jeu de données de pré-entraînement, le FLD-5B, qui couvre 126 millions d’images avec plus de 5 milliards d’annotations, allant des boîtes aux masques en passant par des légendes détaillées. Cela contraste fortement avec d’autres datasets comme WIT ou SA-1B, bien souvent limités.

Performances initiales et défis du VQA

Florence-2, bien qu’impressionnant dans ses capacités, a eu du mal dans les tâches de Visual Question Answering (VQA). Malgré plusieurs tentatives, la formulation de questions visuelles ne correspondait pas bien aux compétences en VQA que nous voulons. Le modèle a, par exemple, échoué avec les prompts typiques comme « ». Ce nouvel angle nécessite du fine-tuning.

DocVQA : un cas d’utilisation concret du fine-tuning

Afin de mesurer les performances sur DocVQA, Florence-2 a subi un fine-tuning qui a permis d’améliorer la similarité de Levenshtein de 0 à 57. Bien que ce ne soit pas parfait, cela démontre son potentiel inexploité quand il est utilisé judicieusement. Grâce à un entraînement en sept époques et sur des ressources limitées (seulement une GPU A100), le modèle a montré des résultats prometteurs.

💡 À retenir

Florence-2, avec son modèle ajusté, offre une amélioration notable dans des tâches spécifiques comme le DocVQA. Un fine-tuning précis devient un levier stratégique.

Les nuances du fine-tuning : technique et pratique

Pour le fine-tuning, l’utilisation d’une petite taille de lot (batch size de 6) et d’un faible taux d’apprentissage (1e-6) s’est révélée bénéfique. Les résultats obtenus à partir d’un setup de ressources limitées en disent long : les développeurs n’ont pas besoin d’infrastructures massives pour performer, juste un savoir-faire adapté à la tâche à accomplir.

« Malgré des tentatives limitées, Florence-2 montre que le fine-tuning sur des tâches précises peut débloquer de nouvelles perspectives. »

Conclusion d’un développeur expérimenté

En exploitant des ressources jusqu’ici inexplorées de manière fine et précise, Florence-2 offre aux développeurs et startups des possibilités jusque-là inimaginables. Pour qui sait tirer parti de cette flexibilité, c’est un véritable atout. La vision de Microsoft avec Florence-2 ? Empower les créateurs, tout simplement.

🔗 Source originaleLire l’article source

Tags : DocVQA fine-tuning Florence-2 Microsoft vision-language

Florence-2 : fine-tuning du modèle vision-langage de Microsoft

Les secrets de l’architecture Florence-2

Performances initiales et défis du VQA

DocVQA : un cas d’utilisation concret du fine-tuning

Les nuances du fine-tuning : technique et pratique

Prenez une longueur d'avance.