Optimise la génération de texte avec Universal Assisted Generation
Accélère l'inférence LLM avec Universal Assisted Generation, une méthode agile qui réduit la latence jusqu'à 1.9x, même sans petite variante.
·
3 min