Analyser les scores DROP du Leaderboard LLM ouvert
Les scores DROP intriguent avec des résultats surprenants. Comprends les défis et solutions en jeu.
Les scores DROP ont révélé un casse-tête inattendu sur le Open LLM Leaderboard : la majorité des modèles affichent des performances médiocres avec des f1-scores inférieurs à 10 sur 100. Un chiffre qui interpelle, surtout lorsque ces modèles performent mieux sur d’autres benchmarks.
Les anomalies des scores DROP révélées
DROP, pour Discrete Reasoning Over Paragraphs, met au défi les modèles d’extraire des informations pertinentes avant de procéder à des étapes de raisonnement discret, comme trier ou compter des éléments. Malgré un ajout récent au Leaderboard, les scores observés déçoivent : alors qu’on s’attendait à ce qu’ils se corrèlent avec le score moyen d’autres benchmarks (ARC, HellaSwag, TruthfulQA, MMLU), une majorité des modèles plafonnent à des scores dérisoires. Deux tendances émergent : certains modèles suivent la moyenne attendue, d’autres stagnent autour de 5.
Problèmes de normalisation : l’ennemi invisible
Une analyse de la normalisation révèle un suspect inattendu : des espaces mal interprétés. Un nombre suivi d’une espace inappropriée, comme un retour à la ligne, échappe à une normalisation correcte. Par exemple, si la génération est de 10nnPassage, elle est perçue comme une seule entité, faussant complètement le score. Cette étape négligée empêche le score d’atteindre son potentiel sans être la seule source du problème.
Exploration approfondie avec Zeno
Les experts de Zeno ont élargi l’analyse à cinq modèles représentatifs des anomalies : par exemple, falcon-180B et mistral-7B sous-performent par rapport aux attentes. Plus préoccupant, aucun modèle ne parvient à traiter correctement les réponses en points flottants, et les modèles générant des réponses longues voient leurs scores chuter. Cela découle d’une mauvaise gestion du point ‘.’ comme marque de fin de génération, coupant les réponses prématurées.
Des scores DROP surprenants soulèvent des questions cruciales de normalisation. Une gestion inadéquate des caractères spéciaux et des fins de génération fausse les performances de modèles prometteurs.
Vers une solution : changer le token de fin
Modifier le token de fin de ‘.’ à ‘n’ semble améliorer significativement les scores en ré-alignant les performances DROP avec d’autres benchmarks. Bien que la solution soit imparfaite, elle offre un aperçu plus juste des capacités des modèles sans les ré-exécuter, un processus coûteux en temps GPU. Ces ajustements montrent une nette corrélation entre les nouveaux scores et la performance moyenne, soulignant la pertinence de l’approche.
L’analyse des scores DROP met en lumière la complexité des benchmarks IA et la nécessité d’une approche méthodique pour éviter les biais techniques. Une remise en question continue est essentielle pour affiner l’évaluation des modèles IA, et garantir une interprétation correcte de leurs performances.