Open LLM Leaderboard : MMLU et ses défis d’évaluation
Un plongée technique dans l'évaluation MMLU du LLM Leaderboard Open : décryptage et enjeux.
L’ajout à l’Open LLM Leaderboard du modèle Falcon a récemment suscité un vif débat au sein de la communauté IA. La discussion tournait autour des écarts flagrants entre les évaluations MMLU figurant sur le leaderboard et celles du papier LLaMA original, remettant en question la fiabilité des benchmarks d’évaluation de modèles de langue.
Comprendre le Open LLM Leaderboard et son importance
L’Open LLM Leaderboard n’est pas un simple classement. Il s’appuie sur la bibliothèque open-source Eleuther AI LM Evaluation Harness pour évaluer divers modèles linguistiques en utilisant les ressources de calcul de Hugging Face. Son ambition est de fournir une comparaison équitable entre les modèles, mais les écarts d’évaluation soulèvent des questions importantes sur les méthodes et les outils employés.
MMLU : un benchmark aux multiples implémentations
Le MMLU (Massive Multitask Language Understanding), utilisé ici, est un benchmark de questions à choix multiples. Or, ses implémentations varient : l’original de UC Berkeley, celui de Stanford grâce au benchmark HELM, et celui de l’AI Harness d’EleutherAI. Chacune de ces approches offre des résultats divergents, impactant potentiellement la crédibilité des évaluations globales.
Les différences dans les méthodes d’évaluation MMLU peuvent significativement influencer les classements des modèles sur le leaderboard d’Open LLM, mettant en lumière l’importance de standards unifiés dans les benchmarks IA.
Les défis de l’évaluation automatique des LLM
Évaluer un LLM n’est pas aussi simple que de lui faire passer un test QCM. Il s’agit d’analyser des probabilités de continuité textuelle, puis de comparer ces probabilités aux réponses préétablies. Cette complexité dans l’évaluation automatique souligne la nécessité de critères clairs et uniformes pour assurer l’intégrité des résultats.
Disparités dans les prompts et résultats : le cas MMLU
Les prompts envoyés aux modèles diffèrent selon l’implémentation : par exemple, les différences entre le texte d’amorce dans l’implémentation originale et celui utilisé par HELM. Cette variabilité dans les inputs peut entraîner des fluctuations notables dans les résultats, défiant ainsi la notion de benchmark consolidé.
« Unification et standardisation sont cruciales pour avancer vers une évaluation crédible des modèles linguistiques. »
Clémentine Fourrier, sur l’importance d’une évaluation cohérente