MosaicLeaks : La confidentialité des agents de recherche en péril

🗓 18 Juin 2026 · ⏱ 8 min de lecture ·🤖 IA

Les agents de recherche risquent de divulguer des infos sensibles via leurs requêtes. Découvrez la méthode PA-DR pour contrer ces fuites.

Les agents de recherche, intégrant de plus en plus de documents privés locaux avec des outils externes comme la récupération Web, posent un sérieux risque de confidentialité. Ces agents peuvent divulguer, de manière inattendue, des informations sensibles à travers leurs requêtes externes. MosaicLeaks est une réflexion nouvelle sur cette tâche de recherche profonde, où des questions multi-hop entrelacent informations publiques et privées. Un fait notable : des modèles testés révèlent que s’entraîner uniquement sur la performance aggrave la situation, augmentant la fuite d’informations de 34,0 % à 9,9 % grâce à une méthode de formation RL sensible aux fuites nommée Privacy-Aware Deep Research (PA-DR).

Le risque de fuite de données dans les agents de recherche

Imagine un agent de recherche dans une entreprise de santé qui effectue des recherches polyglottes via le Web. À chaque requête, les détecteurs de trafic peuvent recomposer des fragments apparemment anodins pour révéler des informations secrètes. C’est l’effet mosaïque, le talon d’Achille de MosaicLeaks. Par exemple, découvrir qu’une société a migré 70% de son infrastructure cloud à partir d’informations commerciales internes peut être déduit des logs de requêtes externes consultables. Et cela, seulement à partir du trafic observable, généré par l’agent de recherche.

Les divers niveaux de fuites d’informations

MosaicLeaks quantifie la fuite d’informations par trois niveaux : la fuite d’intentions (les adversaires peuvent induire les questions de recherche privées sans voir les documents), la fuite de réponses (permettre de répondre à des questions privées existantes), et la fuite d’informations complètes (affirmations vérifiables sur des données privées, même sans questions initiales).

« Les logs de requêtes d’agents de recherche constituent un vecteur de fuite que les adversaires peuvent exploiter pour reconstituer des informations privées sensibles. »

Article de HuggingFace

Construire demo chaîne avec MosaicLeaks

MosaicLeaks propose des chaînes de recherche de 1 001 étapes, combinant documents locaux d’entreprise et corpus web réglementés. Chaque étape sert de pont, reliant des réponses locales à des requêtes Web. Par exemple, concernant la migration cloud de MediConn, chaque fait intermédiaire – « 70% », « janvier » – fait écho dans l’étape finale Web, compromettant la sécurité des informations internes à partir de ces ponts interrogeables.

Peut-on simplement dire à l’agent de ne pas divulguer ?

Inciter explicitement les agents à ne pas divulguer ne suffit pas. Même si une ligne de commande leur impose de ne pas émettre de requêtes Web compromettantes, les fuites demeurent significatives. Pire, la performance des tâches se détériore, par exemple, pour Qwen3-4B, les didascalies ont réduit la fuite d’informations de 34,0% à 25,5% tout en diminuant le succès des chaînes strictes de 48,7% à 44,5%.

💡 À retenir

MosaicLeaks dévoile les risques liés aux fuites d’informations des agents de recherche. La méthode PA-DR propose une réponse stratégique pour réduire ces fuites tout en préservant l’efficacité des tâches.

La sécurité des données à l’ère numérique exige plus qu’une simple prévention. Les agents de recherche doivent être formés pour équilibrer performance et confidentialité, un défi que MosaicLeaks met en lumière avec rigueur.

🔗 Source originaleLire l’article source
Partager : LinkedIn