LiveCodeBench : Évaluation des LLMs de code sans contamination
LiveCodeBench révolutionne l'évaluation des LLMs de code avec un benchmark sans contamination, basé sur des données concrètes.
LiveCodeBench révolutionne l'évaluation des LLMs de code avec un benchmark sans contamination, basé sur des données concrètes.
Découvre comment CyberSecEval 2 teste les risques de cybersécurité des LLM et leurs capacités à résister aux attaques.
Découvre comment l'évaluation Zero-Shot avec LLMs pourrait changer la donne des systèmes VQA sans besoin de fine-tuning.
BenCzechMark teste les capacités des LLM en tchèque avec 50 tâches et 9 catégories.
Découvrez Judge Arena : comparer les modèles IA pour trouver les meilleurs évaluateurs, basé sur des votes et un classement transparent.
Explorez comment Arize Phoenix transforme le suivi et l'évaluation des agents IA en temps réel, garantissant performances et optimisation.
Découvrez la compétition NeurIPS 2025 sur l'évaluation précoce des modèles de langage, un défi stimulant pour la communauté du machine learning.
Découvre comment 3LM évalue les LLMs arabes sur des domaines techniques clés avec des données inédites.
Découvrez comment FilBench teste et compare les performances des LLMs sur les langues Philippine avec des résultats concrets et surprenants.
SPEED-Bench redéfinit le testing des LLM avec des mesures réalistes et diversifiées pour le speculative decoding.