Découvre AprielGuard, le modèle qui renforce la sécurité des LLM en détectant 16 catégories de risques et attaques avancées.
Les modèles de langage de grande taille, évoluant rapidement, ne se contentent plus de simplement converser avec les utilisateurs. Aujourd’hui, ils réalisent des raisonnements multi-étapes, appellent des outils externes, et exécutent du code. AprielGuard de ServiceNow AI vient apporter une solution face à ces avancées en introduisant une protection contre 16 catégories de risques et de multiples types d’attaques adversariales.
Les nouvelles menaces des systèmes LLM modernes
Avec l’évolution des LLM, les menaces ne se limitent pas aux risques de contenu habituels. Les attaques sont désormais plus sophistiquées avec des opérations complexes telles que les injections de prompt ou le détournement de mémoire. Les modèles comme AprielGuard détectent non seulement les contenus toxiques mais aussi les violations de sécurité touchant des workflows complexes.
Une couverture étendue des risques
AprielGuard se démarque par sa capacité à classer 16 catégories de risques sécurité, allant de la distribution d’informations dangereuses à la manipulation et persuasion illicites. Cette vaste couverture est inspirée de SALAD-Bench et répond aux défis spécifiques des systèmes LLM, devenus de véritables écosystèmes d’agents.
« Les systèmes LLM modernes demandent des solutions de sécurité plus larges et plus profondes que n’importe quel modèle précédent. »
Jaykumar Kasundra, ServiceNow AI
AprielGuard définit de nouveaux standards en matière de sécurité LLM en détectant des catégories de risques variées et en proposant une analyse détaillée des attaques.
Datasets synthétiques et entraînement
Le modèle est formé sur des données synthétiques générées pour couvrir chaque sous-catégorie de risque. Utilisant divers outils comme Mixtral-8x7B et NVIDIA NeMo Curator, ces datasets englobent des scénarios réalistes et sophistiqués afin de préparer le modèle à toute éventualité, y compris les variations textuelles complexes.
Utilisation des workflows agentiques
Les workflows agentiques, souvent utilisés dans des tâches complexes impliquant raisonnement et utilisation d’outils, deviennent des cibles privilégiées pour les attaques. AprielGuard en a fait un domaine clé de sa couverture de risques, simulant des interactions réalistes pour anticiper toute stratégie malveillante potentielle.
À l’heure où les LLM se rapprochent de plus en plus des systèmes autonomes, la nécessité d’un modèle comme AprielGuard pour anticiper et déjouer les attaques est plus pressante que jamais. C’est une réponse adaptée à l’expansion rapide et l’utilisation généralisée des intelligences artificielles en entreprise.