ITBench-AA : modèles IA sous-performants sur la fiabilité IT
Découvrez comment les modèles IA peinent à dépasser les 50% sur les tâches IT critiques de SRE. Un challenge de taille pour les agents intelligents.
Les modèles d’intelligence artificielle de pointe peinent à franchir 50 % de réussite sur l’ITBench-AA, le nouveau benchmark dédié aux tâches IT agentiques critiques. C’est ce que révèle l’analyse conjointe d’Artificial Analysis et du laboratoire d’innovation d’IBM Software. Ce benchmark évalue notamment leurs performances sur la réponse aux incidents Kubernetes, un domaine vital mais complexe.
Performance des modèles IA sur ITBench-AA
Les résultats sont révélateurs : Claude Opus 4.7 atteint à peine 47 %, suivi de près par GPT-5.5 avec 46 % et Qwen3.7 Max à 42 %. Même s’ils mènent le classement, aucun modèle ne dépasse la barre des 50 %, soulignant le défi majeur que pose ce benchmark. Ces scores contrastent avec ceux obtenus sur Terminal-Bench, où les performances sont bien meilleures.
Comprendre les défis des incidents Kubernetes
Chaque tâche ITBench-AA SRE fournit un instantané d’incident Kubernetes, exigeant des modèles qu’ils identifient les entités responsables via des logs, des suivis et une topologie d’application. Le défi est de taille : les erreurs incluent des quotas de ressources épuisés, des échecs de déploiement, et des partitions réseau. Une tâche publique a révélé que l’entité responsable était une politique réseau bloquant tout accès frontal.
ITBench-AA révèle la complexité des tâches SRE pour les modèles IA, aucun ne franchissant les 50 %. Un défi pertinent pour les technologies d’agent intelligent.
Impact du nombre de turns sur la précision
Les modèles effectuant plus de turns dans une tâche ne réussissent pas nécessairement mieux. Par exemple, GPT-5.5 atteint 46 % avec 31 turns en moyenne, contre 30 % pour Gemini 3.1 Pro Preview avec 83 turns. L’identification d’entités non pertinentes double souvent la mise, augmentant les faux positifs et réduisant la précision moyenne.
« Plus de turns ne signifie pas forcément de meilleures réponses. L’efficacité prime sur la quantité. »
Analyse interne d’ITBench-AA
Coût et accessibilité des modèles
Les modèles à poids ouverts comme Gemma 4 31B offrent des scores compétitifs à moindre coût : 37 % à $0.14 par tâche, contre 30 % pour Gemini 3.1 à $2.23. Claude Opus 4.7, bien que leader avec 47 %, reste le plus onéreux à $5.38 par tâche. Le coût-performance devient un critère de sélection crucial pour l’adoption des modèles IA dans l’entreprise.
L’évolution rapide des technologies en entreprise impose une analyse fine et rigoureuse de l’impact réel des IA sur des tâches aussi critiques que celles de l’ITBench-AA. Les entreprises devront repenser leurs stratégies pour intégrer efficacement ces modèles sans alourdir leurs coûts.