Découvertes IA Optimisation de génération avec la quantification du cache KV Comment Hugging Face révolutionne le traitement des LLMs avec une quantification innovante du cache de clés et valeurs. avril 3, 2026 · 3 min