Découvrez comment Florence-2, le modèle vision-langage de Microsoft, élève le fine-tuning au niveau supérieur pour les développeurs.
Florence-2, le modèle de vision-langage de Microsoft sorti en juin 2024, change la donne par sa taille phénoménalement réduite (0,2B et 0,7B) tout en offrant des performances robustes. De l’annotation d’images à la détection d’objets, ce modèle couvre beaucoup de terrain. Mais que faire si votre domaine spécifique n’est pas pris en charge ? C’est là que le fine-tuning entre en scène, comme le démontre avec brio l’exemple du DocVQA.
Les secrets de l’architecture Florence-2
Contrairement à ce que l’on pourrait penser, Florence-2 ne brille pas par la complexité de son architecture mais par la richesse de son jeu de données de pré-entraînement, le FLD-5B, qui couvre 126 millions d’images avec plus de 5 milliards d’annotations, allant des boîtes aux masques en passant par des légendes détaillées. Cela contraste fortement avec d’autres datasets comme WIT ou SA-1B, bien souvent limités.
Performances initiales et défis du VQA
Florence-2, bien qu’impressionnant dans ses capacités, a eu du mal dans les tâches de Visual Question Answering (VQA). Malgré plusieurs tentatives, la formulation de questions visuelles ne correspondait pas bien aux compétences en VQA que nous voulons. Le modèle a, par exemple, échoué avec les prompts typiques comme « ». Ce nouvel angle nécessite du fine-tuning.
DocVQA : un cas d’utilisation concret du fine-tuning
Afin de mesurer les performances sur DocVQA, Florence-2 a subi un fine-tuning qui a permis d’améliorer la similarité de Levenshtein de 0 à 57. Bien que ce ne soit pas parfait, cela démontre son potentiel inexploité quand il est utilisé judicieusement. Grâce à un entraînement en sept époques et sur des ressources limitées (seulement une GPU A100), le modèle a montré des résultats prometteurs.
Florence-2, avec son modèle ajusté, offre une amélioration notable dans des tâches spécifiques comme le DocVQA. Un fine-tuning précis devient un levier stratégique.
Les nuances du fine-tuning : technique et pratique
Pour le fine-tuning, l’utilisation d’une petite taille de lot (batch size de 6) et d’un faible taux d’apprentissage (1e-6) s’est révélée bénéfique. Les résultats obtenus à partir d’un setup de ressources limitées en disent long : les développeurs n’ont pas besoin d’infrastructures massives pour performer, juste un savoir-faire adapté à la tâche à accomplir.
« Malgré des tentatives limitées, Florence-2 montre que le fine-tuning sur des tâches précises peut débloquer de nouvelles perspectives. »
Conclusion d’un développeur expérimenté
En exploitant des ressources jusqu’ici inexplorées de manière fine et précise, Florence-2 offre aux développeurs et startups des possibilités jusque-là inimaginables. Pour qui sait tirer parti de cette flexibilité, c’est un véritable atout. La vision de Microsoft avec Florence-2 ? Empower les créateurs, tout simplement.