Math-Verify révolutionne les classements LLM avec une évaluation plus juste
Math-Verify réévalue équitablement 3,751 modèles de l'Open LLM Leaderboard, bouleversant le classement existant.
Math-Verify réévalue équitablement 3,751 modèles de l'Open LLM Leaderboard, bouleversant le classement existant.
Découvrez le cadre EVA qui évalue agents vocaux sur précision et expérience, révolutionnant interactions vocales.
Hugging Face s'associe à JFrog pour renforcer la transparence en sécurité IA avec un scanner avancé. Découvre les détails et implications.
Découvre les avancées du modèle Qwen-3 dans la gestion des conversations AI et pourquoi elles comptent aujourd'hui.
Découvrez SmolVLA, un modèle VLA compact et open-source, idéal pour la robotique sur matériel grand public.
Découvre SmolLM3, le modèle IA de 3 milliards de paramètres qui défie les plus grands avec efficacité multilingue et performance longue portée.
FutureBench redéfinit l'évaluation IA avec des prédictions d'événements futurs. Modèles testés sur stratégie et incertitude.
OpenAI libère GPT OSS, des modèles open-source aux poids ouverts pour développeurs curieux.
Les modèles de langage réussissent-ils vraiment les défis dynamiques des jeux textuels ? Retour sur l'initiative TextQuests et ses résultats.
Explore une nouvelle pipeline open-source pour l'entraînement des modèles à prouver des théorèmes formels avec Kimina-Prover-RL.