Découvrez comment la génération structurée d'Hugging Face veut stabiliser l'évaluation des modèles IA malgré des variations de prompt.
Chaque développeur ayant testé des modèles de langage vous le dira : il suffit de changer un mot ou deux dans un prompt pour que la performance du modèle soit chamboulée. En avril 2024, l’équipe Leaderboards et Evals de Hugging Face nous a démontré à quel point cette instabilité peut biaiser les évaluations, rendant les comparaisons entre modèles presque inutiles.
Quand la forme du prompt dicte la performance
Hugging Face a exploré les impacts de variations subtiles de format sur des évaluations de modèles de langage comme MMLU. Résultat, les performances peuvent fluctuer drastiquement avec des changements apparemment mineurs. Prenez le modèle Qwen1.5-7B par exemple, sa précision chute de 51,2% à 22,9% juste en changeant le format du prompt.
La manipulation implicite des benchmarks
Les auteurs de modèles peuvent sélectionner le prompt qui met le mieux en avant leur modèle. Ce qui aboutit à une représentation peu fiable des performances réelles. Hugging Face a observé qu’une simple réorganisation des choix dans un prompt peut influer jusqu’à 3 points de pourcentage sur les scores.
Hugging Face révèle que la structure des prompts et leur variabilité perturbent les évaluations de modèles IA, appelant à davantage de standardisation et de rigueur.
Générations structurées : une réponse à l’incohérence
Plutôt que d’adapter les modèles à d’innombrables formats de prompts, Hugging Face propose de miser sur la génération structurée. Leur librairie ‘Outlines’ permet de standardiser les réponses des modèles par des grammaires formelles ou expressions régulières, promettant de réduire cette variabilité de manière significative.
Le coût de l’honnêteté : FormatSpread et ses limites
Même si des outils comme FormatSpread tentent de mesurer la variance des performances à travers plusieurs formats, le calcul reste lourd. Standardiser les sorties plutôt que les entrées pourrait offrir une solution plus élégante et économique.
« Ce que nous voulons vraiment en tant qu’utilisateurs pratiques des LLM, c’est la cohérence des prompts. »
Hugging Face
En misant sur des formats de génération structurés, on s’attaque au problème à sa source, évitant que les résultats ne se perdent dans un océan de chiffres arbitraires. Adopter cette philosophie pourrait bien transformer notre façon d’évaluer et optimiser les modèles de langage, rendant les comparaisons plus justes et transparentes.