Évolution de l’Open ASR Leaderboard avec données privées

🗓 21 Mai 2026 · ⏱ 7 min de lecture ·🤖 IA

L'Open ASR Leaderboard intègre des datasets privés pour plus de fiabilité. Découvrez pourquoi cela change tout.

Avec plus de 710 000 visites depuis son lancement en septembre 2023, l’Open ASR Leaderboard est devenu un acteur central dans l’évaluation des performances de reconnaissance vocale. Cependant, la nouvelle étape franchie avec l’introduction de datasets privés par Appen Inc. et DataoceanAI pourrait bien changer la donne. L’enjeu : lutter contre le ‘benchmaxxing’, une optimisation des performances limitée aux benchmarks, sans gains réels en robustesse.

Importance des datasets privés dans l’évaluation ASR

Les nouvelles bases de données privées incluent des échantillons de parole issus de plusieurs accents et contextes de conversation. Pour le moment, l’évaluation des moyennes WER reste sur des datasets publics, mais tu peux inclure les datasets privés pour une vision plus holistique des performances. Par exemple, les enregistrements incluent des accents australiens, canadiens, indiens, et britanniques, chacun avec des caractéristiques uniques comme la ponctuation et les disfluencies.

« Quand une mesure devient une cible, elle cesse d’être une bonne mesure. »

Goodhart’s Law

Standardisation et ouverture : double tranchant

La standardisation et l’ouverture sont essentielles pour un benchmarking significatif, mais elles ouvrent aussi la porte à l’optimisation spécifique au benchmark. Pour combler ce fossé, une normalisation des sorties modèles et des transcriptions de datasets est mise en œuvre. Par exemple, un normaliseur inspiré de Whisper est utilisé pour harmoniser les ponctuations et la casse des textes. Tout cela en rendant le code UI et les scripts d’évaluation open-source.

Lutter contre le benchmaxxing avec des datasets privés

L’incorporation de datasets privés permet de contourner le problème du benchmaxxing. Ces datasets privés, moins sujets à être exploités par les développeurs, aident à fournir des métriques ciblées, mettant en lumière les écarts entre les conditions contrôlées et celles plus nuancées. Cela inclut des paramètres tels que les accents non-américains et les conditions conversationnelles spontanées, souvent négligées.

Évaluation de ton modèle sur l’Open ASR Leaderboard

Pour faire évaluer ton modèle sur ces nouvelles données, soumets simplement une pull request sur GitHub. Le processus reste identique : rapporter les résultats sur des datasets publics, et nous nous chargeons des vérifications sur les datasets privés. En attendant, tu peux auto-rapporter tes performances à travers un fichier YAML dans ta carte de modèle, qui sera affichée dans un classement (non vérifié) sur la page des datasets.

💡 À retenir

L’ajout de datasets privés à l’Open ASR Leaderboard vise à améliorer la robustesse des évaluations, en évitant l’optimisation spécifique aux benchmarks et en reflétant mieux les performances du monde réel.

Le passage à des datasets privés pour l’Open ASR Leaderboard représente une avancée significative dans l’évaluation de la reconnaissance vocale. Cette initiative promet de rendre les benchmarks plus pertinents et fiables, offrant ainsi une meilleure image des capacités réelles des modèles ASR.

🔗 Source originaleLire l’article source
Partager : LinkedIn