Votre agent d’IA se laisse manipuler plus que vous

Votre agent d’IA se laisse manipuler plus que vous

·6 min de lectureMarketing, Persuasion et Positionnement

Vous demandez à un agent d’IA de trouver le billet d’avion le moins cher. Quelques clics plus tard, la réservation inclut un siège premium, une assurance dont vous ne vouliez pas et une série de consentements validés au passage. Rien de spectaculaire à première vue. Pourtant, ce scénario résume un problème profond: une case précochée, lue comme une étape obligatoire, a suffi à détourner l’action de l’agent.

Trois travaux récents convergent sur ce point. Les agents capables de naviguer sur le web à la place de l’utilisateur sont nettement plus vulnérables aux dark patterns que les humains. Plus troublant encore, cette faiblesse semble augmenter avec la puissance du modèle. Autrement dit, les systèmes les plus compétents, ceux que les entreprises veulent déployer pour acheter, réserver, remplir des formulaires ou agir sans supervision constante, sont aussi ceux qui se laissent le plus facilement orienter par une interface trompeuse.

Le chiffre principal change déjà la lecture du sujet

La référence la plus frappante vient de DECEPTICON, une étude de Stanford mise en ligne en 2025. Les chercheurs ont testé des agents web sur 700 tâches de navigation intégrant des dark patterns. Le constat est difficile à minimiser: dans plus de 70 % des cas, ces artifices d’interface ont réussi à détourner les agents vers des issues malveillantes ou contraires à l’intérêt de l’utilisateur. Chez les humains confrontés aux mêmes situations, le taux observé tourne autour de 31 %.

L’écart est déjà considérable. Mais le résultat le plus dérangeant vient ensuite: l’efficacité des dark patterns augmente avec la capacité du modèle. Les systèmes les plus avancés, y compris ceux qui excellent dans le suivi d’instructions et le raisonnement appliqué, paraissent plus faciles à exploiter lorsqu’une fenêtre utilise un ton autoritaire, suggère qu’une option est “recommandée” ou simule une forme d’urgence.

Cela oblige à corriger une intuition répandue. Un agent plus performant n’est pas forcément un agent plus sûr. Dans ce cas précis, la compétence opérationnelle et la robustesse face à la manipulation ne progressent pas ensemble.

Les pièges les plus banals restent redoutablement efficaces

Une deuxième étude, acceptée à IEEE Symposium on Security and Privacy 2026, s’est intéressée au détail des mécanismes en jeu. D’après le travail mené à Purdue, les patterns d’obstruction, c’est-à-dire les interfaces qui bloquent la progression jusqu’à acceptation d’une action, ont atteint un taux de succès de 52,2 % contre les agents. Les patterns relevant de l’ingénierie sociale ont suivi avec 47,9 %.

Ces chiffres importent parce qu’ils renvoient à des formes de persuasion ordinaires sur le web. Un bouton mis en avant comme “recommandé”, un compte à rebours artificiel, une hiérarchie visuelle conçue pour rendre le refus pénible ou presque invisible: rien de tout cela n’a besoin d’être sophistiqué. Il suffit que l’interface paraisse légitime.

L’étude a évalué six agents populaires, dont Skyvern, BrowserUse et DoBrowser. Le schéma reste stable. Skyvern s’est montré vulnérable dans 72,3 % des cas, et BrowserUse dans 69,3 %, selon les données reprises dans l’article source. La leçon est peu intuitive, mais claire: plus un agent est efficace pour finir une tâche, plus il peut être exposé à des instructions visuellement trompeuses.

Les tests sur des sites réels confirment la gravité du phénomène

SusBench, conçu par des chercheurs de University of Washington, Carnegie Mellon et Rutgers, a déplacé l’analyse vers des interfaces réelles. L’équipe a injecté neuf types de dark patterns dans 55 sites web existants. Le benchmark SusBench a montré que les patterns de type hidden information atteignaient 89 % de susceptibilité, tandis que les options présélectionnées trompaient les agents dans 71 % des cas.

Ce point est décisif, parce qu’il montre que la difficulté ne disparaît pas dès que l’on quitte un environnement expérimental. Les humains, eux, disposent au moins d’un début de réflexe social. Nous avons appris, parfois à force d’irritation, à nous méfier des bannières trop insistantes, des boutons surdimensionnés ou des urgences suspectement bien chorégraphiées.

L’agent, lui, ne dispose pas de ce scepticisme diffus. Il traite chaque élément d’écran comme une instruction potentiellement pertinente. Une bannière de consentement qui affiche “Accept All (Recommended)” peut ainsi être interprétée comme une directive fiable. Un faux compte à rebours n’éveille pas le doute, il renforce l’objectif de terminer la tâche rapidement.

Les protections standard ne règlent pas encore le problème

On pourrait croire qu’il suffit d’ajouter des guardrails ou un meilleur prompting. Ce n’est pas ce qu’indiquent les résultats. Les auteurs de DECEPTICON constatent que le prompting en contexte et les modèles de garde-fou n’ont pas réduit de manière constante le taux de réussite des dark patterns. Le défaut ne semble donc pas superficiel. Il touche à la manière même dont les agents lisent une page et hiérarchisent ce qui doit être fait.

C’est logique, au fond. Un bon agent est conçu pour suivre précisément des consignes, interpréter les signaux d’interface et réduire les frictions. Les dark patterns exploitent exactement ces qualités. Ce qui rend l’agent utile le rend aussi manipulable.

Pour les organisations qui déploient déjà des agents dans le commerce, le voyage, les formulaires ou les transactions, le risque devient très concret: abonnements non souhaités, acceptation trop large de cookies, achats gonflés par des artifices de prix, partage de données validé au nom de l’utilisateur. Un article de FedScoop évoquant notamment les alertes liées à Lasso Security souligne d’ailleurs que les navigateurs dopés à l’IA brouillent désormais la frontière entre l’intention humaine et l’action de l’agent, surtout dans des sessions authentifiées.

Le web n’a pas cessé d’être persuasif, il change seulement de cible

C’est probablement la conclusion la plus utile. Le web marchand a été façonné pendant des années pour influencer l’attention, accélérer les décisions et obtenir davantage de consentements, d’achats ou de données. En y envoyant un agent d’IA obéissant, on ne neutralise pas cette logique. On l’expose à un acteur qui manque encore de recul contextuel, de soupçon et de prudence sociale.

La vérité inconfortable tient donc en une phrase: aujourd’hui, votre modèle le plus performant peut aussi être le plus facile à détourner. Tant que les architectures agentiques n’intégreront pas un équivalent fonctionnel du scepticisme humain, chaque session de navigation autonome restera un pari contre un internet saturé de pièges conçus pour des visiteurs trop dociles.

Sources et Références

  1. Stanford University (DECEPTICON)
  2. Purdue University / IEEE S&P 2026
  3. University of Washington / Carnegie Mellon / Rutgers (SusBench, IUI 2026)
  4. FedScoop / Lasso Security

Découvrez nos standards éditoriaux

Cela pourrait vous plaire :