Explore comment le classement Open ASR redéfinit la transcription avec des pistes multilingues et longs-formats.
Avec plus de 150 modèles Audio-Text-to-Text et 27K modèles ASR disponibles sur le Hub, choisir celui qui correspond à ton projet est plus complexe qu’élire ta prochaine série Netflix. Les performances multilingues et le débit des modèles, cruciaux pour les contenus longs comme les podcasts, sont souvent ignorés par les benchmarks traditionnels.
Conformer et décodeurs LLM : la combinaison gagnante
Les modèles qui allient des encodeurs Conformer à des décodeurs basés sur de grands modèles de langage (LLM) dominent actuellement en précision pour la transcription anglaise. NVIDIA, IBM et Microsoft sont les leaders en termes de taux d’erreur de mots (WER). Par exemple, le modèle Canary-Qwen-2.5B de NVIDIA excelle dans cette catégorie.
« NVIDIA introduced Fast Conformer, a 2x faster variant of the Conformer. »
Hugging Face
Trade-off entre rapidité et précision
Bien que précis, ces décodeurs LLM sont souvent plus lents. Le leaderboard ASR évalue l’efficacité via l’inverse du facteur temps réel (RTFx). Les décodeurs CTC et TDT offrent des débits 10-100 fois plus rapides, idéaux pour la transcription en temps réel malgré une légère augmentation des erreurs.
Multilinguisme et spécialisation
OpenAI’s Whisper Large v3 est un des meilleurs modèles de base pour le multilinguisme. Cependant, les variantes ajustées comme Distil-Whisper surpassent souvent l’original pour les tâches en anglais uniquement, soulignant l’importance du fine-tuning selon les besoins.
L’Open ASR Leaderboard introduit des pistes multilingues et longues, optimisant les benchmarks pour des cas d’utilisation variés et accélérant l’innovation.
La transcription de longs formats, un défi encore à relever
Pour les contenus longs, les systèmes fermés sont encore en tête. Cependant, les modèles ouverts comme Whisper Large v3 d’OpenAI commencent à rivaliser. NVIDIA’s Parakeet CTC, par exemple, affiche un excellent débit (RTFx de 2793.75).
L’innovation dans le domaine des médias longs reste un espace prometteur pour l’open source.
L’Open ASR Leaderboard ne cesse d’évoluer, servant de référence transparente pour la communauté. Celles et ceux qui envisagent de contribuer peuvent se rendre sur le dépôt GitHub pour des pull requests.