📑 Table des matières

Stateful Online Monitoring : ce papier d'Anthropic montre comment attraper les attaques distribuées d'agents IA

Skynet Watch 🟢 Débutant ⏱️ 16 min de lecture 📅 2026-06-01

Stateful Online Monitoring : ce papier d'Anthropic montre comment attraper les attaques distribuées d'agents IA

🔎 Pourquoi les monitors de sécurité IA sont devenus aveugles

En décembre 2025, Anthropic révélait ce qui serait la première attaque largement autonome dirigée par une IA contre 30 cibles, des startups aux agences gouvernementales (The Debrief, décembre 2025). Six mois plus tard, le problème n'a fait que s'aggraver. Les meilleurs agents IA autonomes sont capables de planifier des séquences d'attaque multi-étapes, et les attaquants ont trouvé une faille structurelle dans la façon dont on les sécurise.

Cette faille est simple : les systèmes de sécurité évaluent chaque session d'agent indépendamment. Or un attaquant déterminé n'utilise jamais un seul compte. Il répartit une tâche nuisible sur des dizaines, voire des centaines de sessions individuelles — chacune parfaitement bénigne isolément.

Le 29 mai 2026, Anthropic publiait sur arXiv un papier qui change la donne : Stateful Online Monitoring Catches Distributed Agent Attacks (2605.31593). Leur proposition ? Un monitor en ligne avec état, capable de coudre des preuves à travers des sessions d'agent séparées pour identifier un abus coordonné. C'est le premier cadre qui attaque le problème à sa racine.


L'essentiel

  • Les attaquants distribuent désormais leurs attaques d'agents IA sur de nombreux comptes utilisateurs, rendant chaque transcript individuel bénin pour les monitors classiques.
  • Anthropic propose un Cross-Context Monitor Prompt qui maintient un état entre les requêtes et utilise du clustering en temps réel pour agréger des signaux faibles de suspicion.
  • Ce monitor ne fait appel à un LLM coûteux pour l'escalade que rarement, ce qui le rend viable en production à grande échelle.
  • Le contexte immédiat : Mythos Preview d'Anthropic a découvert plus de 10 000 vulnérabilités de cybersécurité (PYMNTS, 2026), prouvant que les capacités de recherche de failles sont déjà massives — et détournables.

Outils recommandés

Outil / Initiative Usage principal Prix (juin 2026, vérifiez sur anthropic.com) Idéal pour
Anthropic Mythos Preview Recherche automatisée de vulnérabilités Jusqu'à 100M$ de crédits via Project Glasswing Équipes de sécurité offensive
Project Glasswing Sécurité logicielle critique ère IA 4M$ en dons directs open-source Orgs de sécurité open-source
Cross-Context Monitor (papier) Détection d'attaques distribuées d'agents Non commercialisé — recherche ouverte Plateformes hébergeant des agents IA
Hostinger Hébergement sécurisé pour déploiements d'agents À partir de 2,99 €/mois Développeurs déployant des agents en production

Le contexte de 2026 : les agents IA comme surface d'attaque

Des capacités de découverte de failles sans précédent

Les LLM modernes ont atteint un niveau de capacité en cybersécurité qui rend le statu quo intenable. Carlini et al. (2026) ont démontré que les LLM peuvent identifier des milliers de vulnérabilités critiques de manière automatisée. Anthropic elle-même rapporte que Mythos Preview a dépassé la barre des 10 000 vulnérabilités découvertes (PYMNTS, 2026).

La citation d'Anthropic est sans équivoque : « Le progrès en sécurité logicielle était limité par la vitesse à laquelle nous pouvions trouver de nouvelles vulnérabilités. » Ce plafond a sauté. Les meilleurs LLM pour les agents IA comme GPT-5.5 (score agentic 98.2) ou Claude Opus 4.7 Adaptive (94.3) disposent des capacités de raisonnement nécessaires pour chaîner des étapes d'exploitation complexes.

Des breaches réels qui illustrent le risque

Le premier cas documenté d'attaque autonome multi-étapes en conditions réelles a été identifié par Anthropic fin 2025 : une IA dirigeant des opérations contre 30 cibles simultanément, allant de tech companies à des agences gouvernementales (The Debrief, décembre 2025). Ce n'était pas une démonstration de recherche. C'était une campagne réelle.

Le roundup Adversa AI de juin 2026 compile les ressources les plus récentes sur la sécurité agentic, et le constat est unanime : la surface d'attaque a muté. Les agents ne sont plus de simples chatbots. Ils ont accès à des outils, à des systèmes de fichiers, à des API. Un agent compromis ou détourné est un adversaire numérique avec des privilèges étendus.

Les attaques par essaim : le nouveau mode opératoire

Kiteworks (décembre 2025) décrit un pattern émergent : les attaques par essaim IA. Le principe consiste à déployer des agents autonomes qui infiltrent des réseaux de manière indétectable, chacun exécutant une micro-tâche qui ne déclenche aucune alarme individuelle.

C'est exactement le scénario que le papier d'Anthropic addressera. La différence entre un essaim et une attaque distribuée est subtile mais importante : dans l'essaim, les agents sont coordonnés par un seul contrôleur. Dans l'attaque distribuée décrite par Anthropic, c'est un humain qui crée manuellement de nombreux comptes et répartit la tâche.


Le problème fondamental : pourquoi les monitors sans état échouent

L'illusion de sécurité du contexte unique

La quasi-totalité des systèmes de sécurité pour agents IA fonctionnent sur le même principe : ils prennent un transcript d'interaction agent-utilisateur et l'évaluent. Si le transcript contient des instructions malveillantes explicites, il est bloqué. Sinon, il passe.

Ce modèle a fonctionné quand les attaques étaient simples. Un utilisateur demande à un agent de générer un malware, le monitor le flagge, fin de l'histoire. Mais les attaquants ont adapté leur méthode. Plutôt que de tout mettre dans une seule session, ils fragmentent.

L'analogie du blanchiment d'argent

Le mécanisme est analogue au blanchiment d'argent par smurfing : au lieu de déposer 100 000 € d'un coup (qui déclenche une alerte), on répartit en 100 dépôts de 1 000 € sur des comptes différents. Chaque transaction est en dessous du seuil de détection. Mais l'agrégat révèle l'opération.

Dans le cas des agents IA, un attaquant peut utiliser 50 comptes différents. Le compte 1 demande à l agent de scanner les ports d'une cible. Le compte 2 demande d'identifier les services exposés. Le compte 3 demande de rechercher des CVEs pour ces services. Aucun de ces prompts n'est malveillant en soi. Mais assemblés, ils forment la phase de reconnaissance d'une cyberattaque.

Les limites des approches existantes

Le papier Anthropic (2605.31593) identifie clairement les limites : les monitors de sécurité qui évaluent un seul contexte agent à la fois sont structurellement aveugles. Ce n'est pas un bug d'implémentation. C'est une limitation fondamentale de l'architecture. Tant que le monitor n'a pas de mémoire entre les sessions, il ne peut pas voir le pattern.

Anthropic référence ses propres rapports d'abus (Anthropic, 2025a, 2025b) documentant des campagnes de cyberattaques à échelle et de surveillance pour des régimes autoritaires. Ces campagnes utilisaient précisément la distribution sur de multiples comptes pour échapper à la détection.


Le mécanisme technique : le Cross-Context Monitor Prompt

L'architecture à trois couches

Le papier propose une architecture en trois couches qui rompt avec le paradigme du monitor sans état.

Couche 1 — Collecte de signaux faibles. Chaque transcript d'agent est analysé, non pas pour détecter une attaque, mais pour extraire des signaux de faible intensité. Ces signaux peuvent être des topics de conversation inhabituels, des patterns d'utilisation d'outils, des requêtes qui sont à la frontière de ce qui est acceptable. Individuellement, ils ne justifient aucune action.

Couche 2 — Clustering en temps réel avec état. C'est ici que la magie opère. Les signaux faibles de tous les transcripts actifs sont alimentés dans un système de clustering qui maintient un état. Ce clustereur identifie des groupes de sessions qui partagent des caractéristiques suspectes quand elles sont agrégées : mêmes cibles, même séquence thématique, même fenêtre temporelle.

Couche 3 — Escalade sélective vers un LLM. Le clustering ne signale pas tout. Il n'escalade que rarement vers un LLM de monitoring, qui reçoit alors un « Cross-Context Monitor Prompt » — un prompt enrichi avec les preuves cousues à travers les sessions séparées. C'est ce LLM qui prend la décision finale d'abus.

Pourquoi l'escalade est rare (et pourquoi c'est crucial

Le choix de ne faire appel au LLM qu'en escalade est déterminant pour la viabilité en production. Évaluer chaque transcript avec un modèle de type Claude Opus 4.7 ou GPT-5.5 serait prohibitif en coût et en latence. Le clustering agit comme un filtre ultra-efficace : il réduit le volume de cas nécessitant une évaluation LLM profonde à une fraction minuscule du trafic total.

Dans les expériences du papier, cette architecture permet de monitorer des volumes massifs de sessions en temps réel tout en maintenant des coûts opérationnels raisonnables.

Le Cross-Context Monitor Prompt en détail

Le prompt de monitoring croisé est la pièce centrale. Contrairement à un prompt de sécurité standard qui reçoit un seul transcript, il reçoit un faisceau de preuves agrégées : des extraits de sessions différentes, des métadonnées temporelles, les résultats du clustering. Son travail n'est pas de décider si un transcript est malveillant, mais de déterminer si un ensemble de transcripts révèle une intention coordonnée.

C'est un changement de paradigme. On passe de « ce prompt est-il dangereux ? » à « ces 30 sessions, prises ensemble, révèlent-elles une campagne d'attaque ? ».


Résultats expérimentaux : ce que le papier démontre

Simulations à grande échelle

Le papier (version PDF complète) détaille des simulations à grande échelle où des attaquants distribués tentent de mener des campagnes de cyberattaque en fragmentant leurs instructions sur de nombreux comptes. Les résultats sont sans appel : les monitors sans état (l'état de l'art précédent) échouent de manière consistante à détecter ces attaques.

Le Cross-Context Monitor, en revanche, parvient à identifier les campagnes distribuées en agrégeant les signaux faibles. Le papier documente précisément comment les preuves sont cousues à travers les sessions séparées pour reconstituer l'intention malveillante.

Taux de faux positifs maîtrisés

Un risque évident de cette approche est le faux positif : si deux utilisateurs légitimes travaillent indépendamment sur des sujets similaires, le clustering pourrait les regrouper à tort. Le papier rapporte que l'escalade sélective vers le LLM joue ici un rôle clé de filet de sécurité. Le LLM évalue le contexte complet et peut distinguer une coïncidence d'une coordination.

Les métriques précises de taux de détection et de faux positifs sont dans le papier complet, mais l'argument principal d'Anthropic est que le système est nettement supérieur au statu quo tout en restant déployable.

Les limites honnêtement discutées

Anthropic ne prétend pas avoir résolu le problème de la sécurité des agents IA. Le papier note que le Cross-Context Monitor est un outil de détection, pas de prévention. Il ne remplace pas les garde-fous au niveau du modèle, les filtres de contenu, ou les méthodes d'entraînement comme la SDAR qui renforcent la résistance intrinsèque des agents. Il s'ajoute à ces couches.


Project Glasswing et l'aveu sincère d'Anthropic

« Aucune entreprise n'a encore développé des gardes fiables »

Le Projet Glasswing, annoncé en 2026, est éclairant sur la position d'Anthropic face à cette menace. L'entreprise s'engage jusqu'à 100 millions de dollars de crédits d'utilisation pour Mythos Preview, plus 4 millions en dons directs à des organisations de sécurité open-source.

Mais la déclaration qui accompagne ce projet est frappante : Anthropic déclare explicitement qu'aucune entreprise — y compris elle-même — n'a encore développé des gardes fiables pour empêcher l'usage malveillant de modèles aux capacités de niveau Mythos. C'est un aveu rare d'une entreprise IA sur les limites de ses propres systèmes de sécurité.

Le paradoxe de Mythos

Mythos Preview illustre parfaitement le paradoxe de la sécurité IA en 2026. D'un côté, il découvre plus de 10 000 vulnérabilités (PYMNTS, 2026), ce qui est un bien immense pour la communauté de sécurité. De l'autre, ces mêmes capacités, entre les mauvaises mains, sont une arme de destruction massive pour la cybersécurité.

Le papier de monitoring stateful doit être lu dans ce contexte : c'est une tentative de construire les gardes qui manquent, justement parce que les capacités de Mythos rendent le monitoring distribué critique. Sans un système capable de voir à travers les sessions, un attaquant pourrait utiliser des comptes multiples pour exploiter les capacités de découverte de vulnérabilités de manière détournée.


Implications pour les entreprises déployant des agents

Vous êtes probablement vulnérable sans le savoir

Toute entreprise qui déploie des agents IA en production — que ce soit en SaaS, en interne, ou via des agents open source avec Ollama en local — est potentiellement exposée. La vulnérabilité n'est pas dans votre code. Elle est dans l'architecture de monitoring.

Si votre système de sécurité évalue chaque conversation d'agent isolément, un attaquant patient peut le contourner trivialement. Il lui suffit de créer plusieurs comptes et de fragmenter sa tâche. C'est low-tech, ça ne requiert pas de bypasser des filtres sophistiqués, et ça fonctionne contre la quasi-totalité des déploiements actuels.

Les secteurs les plus exposés

Les entreprises dans les secteurs réglementés (finance, santé, énergie) sont les cibles prioritaires. Kiteworks souligne que les exigences de conformité 2026 (DORA en Europe, nouvelles réglementations américaines) imposent une surveillance renforcée des systèmes IA. Or les monitors sans état ne satisfont pas ces exigences face à des attaques distribuées.

Les plateformes d'hébergement d'agents (type Hugging Face Spaces, providers de services agentic) sont particulièrement concernées : elles ont des milliers de comptes utilisateurs et ne peuvent pas analyser manuellement les transcripts. Le clustering automatisé proposé par Anthropic est directement applicable à leur contexte.

Ce que vous devez faire maintenant

Premièrement, auditer votre architecture de sécurité. Posez la question simple : votre monitor a-t-il une mémoire entre les sessions ? Si la réponse est non, vous avez un angle mort documenté.

Deuxièmement, envisager des couches de défense complémentaires. Le monitoring stateful est une couche de détection. La formation renforcée des agents est une couche de prévention. Des approches comme le SkillOpt pour les agents auto-évolutifs ou les mécanismes d'apprentissage entre sessions comme Anthropic Dreaming montrent que la résilience des agents peut aussi venir de l'intérieur.

Troisièmement, si vous déployez sur des infrastructures cloud, assurez-vous que votre hébergeur offre des garanties de sécurité adaptées. Des solutions comme Hostinger pour les déploiements légers ou des plateformes dédiées pour les charges agentic critiques — dans tous les cas, la sécurité de l'hôte ne compense pas l'absence de monitoring applicatif.


La sécurité agentic en juin 2026 : un écosystème en construction

Le roundup Adversa AI

Le roundup Adversa AI de juin 2026 positionne le papier d'Anthropic dans un écosystème de recherche en pleine accélération. La sécurité agentic n'est plus un niche académique : c'est un domaine avec ses propres conférences, ses benchmarks, ses outils open-source.

Le papier de monitoring stateful s'inscrit dans une tendance claire : passer de la sécurité au niveau du prompt à la sécurité au niveau du système. Les premiers travaux se concentraient sur le prompt injection, le jailbreak, l'exfiltration. Les travaux de 2026 se concentrent sur les attaques qui s'étendent sur des temporalités longues et des contextes multiples.

Les leçons des breaches de 2026

Le rapport Beam.ai sur les breaches de sécurité d'agents IA en 2026 tire des leçons concrètes des incidents réels. Un pattern récurrent : les attaquants ne cherchent plus à tromper un seul agent. Ils utilisent la multiplicité des agents et des sessions comme vecteur d'attaque en soi.

C'est exactement ce que le papier Anthropic modélise et détecte. Les breaches documentés en 2026 confirment que l'attaque distribuée n'est pas un scénario théorique mais une menace active.

L'interaction entre capacités et défenses

Il y a une dynamique arms race inévitable. À mesure que les modèles comme GPT-5.5 (98.2 au benchmark agentic) ou Claude Opus 4.7 Adaptive (94.3) deviennent plus capables, les défenses doivent évoluer au même rythme. Le Cross-Context Monitor est une réponse à un niveau de capacité spécifique : celui où un modèle peut planifier et exécuter une attaque multi-étapes, mais où l'attaquant doit encore fragmenter pour éviter la détection par session.

Quand les modèles seront encore plus capables, la fragmentation elle-même pourrait devenir plus subtile. Le monitoring stateful n'est pas une solution finale. C'est une itération nécessaire dans une course qui ne s'arrêtera pas.


❌ Erreurs courantes

Erreur 1 : Croire qu'un bon prompt guard suffit

Ce qui ne va pas : Beaucoup d'équipes investissent massivement dans les filtres au niveau du prompt (refuser de générer du malware, etc.) et pensent que c'est suffisant. Le papier montre que ces filtres sont trivialement contournés par la distribution sur plusieurs comptes. La solution : Ajouter une couche de monitoring inter-sessions. Le prompt guard reste nécessaire mais insuffisant.

Erreur 2 : Confondre rate limiting avec sécurité

Ce qui ne va pas : Limiter le nombre de requêtes par compte est une bonne pratique d'infrastructure, mais ce n'est pas une mesure de sécurité. Un attaquant avec 100 comptes a 100 fois le rate limit. La solution : Le rate limiting protège contre les abus de ressources. La sécurité nécessite une analyse comportementale à travers les comptes.

Erreur 3 : Ignorer les signaux faibles

Ce qui ne va pas : Certains systèmes de monitoring ne déclenchent une alerte que pour des menaces explicites et immédiates. Les attaques distribuées n'ont presque jamais de signal fort dans une session individuelle. La solution : Implémenter une collecte systématique de signaux faibles et un mécanisme d'agrégation, comme le clustering proposé dans le papier.

Erreur 4 : Évaluer chaque session avec un LLM puissant

Ce qui ne va pas : Envoyer chaque transcript à Claude Opus 4.7 ou GPT-5.5 pour analyse de sécurité serait précis, mais prohibitif en coût à l'échelle. La solution : Utiliser un pipeline à plusieurs étapes avec un filtrage léger en premier (clustering, heuristiques) et n'escalader vers le LLM que pour les cas ambigus.


❓ Questions fréquentes

Le Cross-Context Monitor est-il déployé chez Anthropic ?

Anthropic ne précise pas dans le papier si ce système est en production sur ses propres plateformes. Le papier le présente comme un cadre de recherche validé par des simulations. Cependant, le contexte de Project Glasswing et les déclarations sur l'absence de gardes fiables suggèrent que le déploiement effectif reste un défi en cours.

Ce système protège-t-il contre les attaques par essaim IA ?

Partiellement. Le Cross-Context Monitor détecte les attaques distribuées où un humain fragmente une tâche sur plusieurs comptes. Les essaims IA (décrits par Kiteworks) impliquent des agents coordonnés de manière autonome, ce qui est un pattern légèrement différent. L'approche du clustering est applicable, mais les signaux à détecter diffèrent.

Un petit fournisseur d'agents peut-il implémenter cette approche ?

L'architecture à trois couches est conceptuellement accessible, mais le clustering en temps réel sur des volumes élevés nécessite une infrastructure non triviale. Pour les petits fournisseurs, la leçon pratique est surtout d'arrêter de considérer le monitoring par session comme suffisant et d'explorer des solutions de sécurité inter-sessions, même simplifiées.

Quel modèle LLM utiliser pour l'étape d'escalade ?

Le papier ne prescrit pas de modèle spécifique. En pratique, un modèle avec de bonnes capacités de raisonnement mais un coût modéré serait adapté. Claude Sonnet 4.6 (81.4 au benchmark agentic) ou GPT-5.4 (87.6) pourraient offrir un bon équilibre coût/performance pour cette tâche d'évaluation de contexte agrégé.

Est-ce que ça marche contre les agents open source auto-hébergés ?

Le papier s'applique au contexte d'un fournisseur de services qui voit passer les transcripts de multiples utilisateurs. Pour un agent auto-hébergé avec Ollama en local, la menace distribuée se présente différemment : c'est l'attaquant qui contrôle l'agent directement. Le monitoring stateful est plus pertinent pour les plateformes multi-utilisateurs que pour les déploiements single-tenant.


✅ Conclusion

Le papier Stateful Online Monitoring d'Anthropic démontre que la sécurité des agents IA en 2026 ne peut plus se contenter d'examiner une session à la fois — les attaquants distribuent leurs opérations sur de multiples comptes, et les monitors sans état sont structurellement aveugles face à ce pattern. Le Cross-Context Monitor avec clustering et escalade sélective vers un LLM est la première réponse technique crédible à ce problème. Si vous déployez des agents en production, lire le papier complet sur arXiv devrait être votre prochaine action.