Optimisation des Préférences au-Delà des Chatbots
Découvre l'optimisation des préférences directes pour surmonter les limitations de SFT dans l'OCR, une avancée audacieuse via DharmaAI.
En avril, DharmaAI a introduit DharmaOCR, un modèle d’OCR structuré qui montre une réduction impressionnante du taux de dégénérescence textuelle, avec une baisse moyenne de 59,4% grâce à l’Optimisation des Préférences Directes (DPO). Cette technique marque un tournant dans la gestion des défaillances des modèles de vision.
Réduction du Taux de Dégénérescence Textuelle : Un Changement Mesurable
DharmaOCR a évalué divers modèles de langage sur la tâche exigeante d’extraction de documents structurés en portugais brésilien. Le DPO a permis de réduire le taux de dégénérescence textuelle jusqu’à 87,6% dans le meilleur des cas, illustrant une amélioration systématique des processus d’OCR. Cela dépasse de loin les capacités de l’ajustement fin supervisé (SFT), qui, malgré ses efforts, ne touche pas directement le problème de la dégénérescence.
Pourquoi le Finetuning Supplémentaire n’Est-il Pas Suffisant?
L’ajustement fin supervise le modèle sur une base token par token, sans sanctionner de manière explicite les boucles de répétition comme des échecs complets. En contraste, le DPO évalue l’ensemble de la sortie, où une boucle dégénérée est clairement identifiée comme une issue incorrecte. Cette approche systémique attaque directement la propagation des erreurs au niveau de la distribution de probabilité des tokens.
Les Limites de l’Ajustement Fin: Une Preuve Structurelle
Une observation intrigante lors des tests de DharmaOCR est qu’un modèle est passé d’une dégénérescence basique de 0.60% à 3.23% suite à un SFT, pour ensuite baisser à 1.41% grâce au DPO. Cela montre le caractère inadéquat du SFT pour fonctionner seul dans la réduction de la dégénérescence, révélant des faiblesses dans la structure de l’espace de distribution que même un apprentissage supplémentaire ne parvient pas à adapter.
Le DPO offre une solution tangible aux limitations de l’ajustement fin supervisé en pour les modèles OCR, optimisant directement contre les échecs spécifiques de dégénérescence textuelle.
L’Innovation du DharmaOCR : Utiliser les Échecs comme Atout
Une des contributions majeures de DharmaOCR à DPO réside dans l’utilisation des sorties dégénérées comme rejet au sein de son processus d’optimisation, traitant les erreurs non pas comme des éléments à éliminer mais comme des signaux d’apprentissage cruciaux. Cela permet une meilleure différenciation des résultats valides des invalides, affûtant encore plus la robustesse des modèles sur des tâches non conversationnelles et structurées.
« Le DPO n’est pas une amélioration de l’ajustement fin, mais une approche radicalement différente qui vise directement les faiblesses des modèles. »
DharmaAI Study
L’application de l’optimisation des préférences directes offre une perspective nouvelle et pragmatique dans le développement de modèles de langage plus robustes face à des tâches de génération textuelle structurées. En choisissant d’optimiser les signaux d’erreurs internes, DharmaAI prouve que les modèles peuvent apprendre de leurs propres failles lorsqu’ils sont correctement dirigés.