Les modèles LLM peuvent-ils rivaliser avec les étiquettes humaines?
Les modèles LLM comme GPT-4 défient-ils encore les benchmarks humains? Analyse complète.
Alors que ChatGPT a ouvert les vannes de l’innovation dans le monde des modèles de langage, peu de gens s’interrogent sur leur capacité à s’approcher du jugement humain dans le domaine de l’étiquetage des données. Avec des performances souvent mesurées par des évaluations comme celles de GPT-4, Huggig Face propose un Open LLM Leaderboard pour mettre les modèles au défi avec des benchmarks professionnels.
Efficacité des modèles par rapport aux jugements humains
Comparer les performances des modèles de langage actuels à celles des jugements humains est une tâche ardue. Selon le leaderboard de Hugging Face, les modèles comme Vicuna-13B ou Koala-13B sont testés pour leur capacité à générer des données comparables à des labels humains à l’aide d’évaluations de type échelle de Likert. Cela montre que dans bien des cas, ces modèles peuvent rivaliser avec des experts en étiquetage.
Leaderboards : Utilités et Limites
Les classements comme LMSYS ou GPT4All donnent une mesure approximative, souvent biaisée par le type de données testé. Les critères ELO, utilisés ici, évaluent les préférences mais ne compensent pas l’absence de diversité dans le panel de tâches.
Les modèles LLM montrent une capacité croissante à générer des étiquettes comparables à celles des juges humains, mais les spécificités contextuelles des tests limitent la portée des résultats.
Dans le détail : Elo et Likert
Pour les non-initiés, une des méthodes phare est le score ELO, qui classe les modèles via des comparaisons par paires. Dans cette approche, Vicuna-13B obtient un score ELO moyen de 1140, surclassant Koala-13B et les autres. Cependant, les résultats diffèrent selon que l’on considère certains niveaux de Likert comme égaux ou non, ce qui illustre la complexité du problème d’évaluation par les machines.
« La méthode ELO, bien que populaire, doit être contextualisée par une variété plus riche de scénarios tests. »
Analyse fondée sur les résultats du leaderboard
En quoi cela impacte-t-il la pratique des développeurs?
Pour un développeur, le choix d’un modèle basé sur ces scores peut influencer directement la précision des applications de génération de texte, de l’assistant en ligne jusqu’à l’outil de code. Néanmoins, l’absence de tests exhaustifs laisse entrevoir une zone grise sur laquelle il convient de ne pas fermer les yeux.
En somme, ces classements et méthodes d’évaluation tels que le Likert ou le système d’ELO offrent aux développeurs des indicateurs cruciaux tout en posant de grandes questions sur l’objectivité et la généralisation.