Ihr KI-Agent ist leichter zu täuschen als Sie
Sie beauftragen einen KI-Agenten damit, den günstigsten Flug zu finden. Gebucht wird am Ende ein teurerer Sitzplatz, dazu eine Versicherung, die niemand wollte, und mehrere Einwilligungen, die nie bewusst erteilt wurden. Aus Sicht des Systems war das kein Fehlverhalten, sondern die konsequente Abarbeitung einer Oberfläche, die eine vorangekreuzte Option wie ein erforderliches Formularfeld erscheinen ließ.
Genau darin liegt das Problem. Webagenten, die für Nutzerinnen und Nutzer im Browser handeln sollen, sind nicht nur anfällig für manipulative Oberflächen. Sie scheinen diesen Mustern sogar deutlich stärker zu unterliegen als Menschen. Und ausgerechnet die leistungsfähigsten Modelle, die Unternehmen nun für autonome Webaufgaben einsetzen wollen, zeigen eine besonders hohe Verwundbarkeit.
Die zentrale Zahl ist schwer wegzuerklären
Am deutlichsten formuliert das die Stanford-Arbeit DECEPTICON aus dem Jahr 2025. Untersucht wurden 700 Navigationsaufgaben, in die Dark Patterns gezielt eingebaut wurden. Das Ergebnis: In mehr als 70 Prozent der generierten und realitätsnahen Aufgaben ließen sich die Agenten zu schädlichen oder fehlgeleiteten Ergebnissen steuern. Menschen, die denselben Mustern ausgesetzt waren, lagen bei etwa 31 Prozent.
Schon diese Differenz wäre bemerkenswert. Noch relevanter ist jedoch ein zweiter Befund: Mit steigender Modellfähigkeit nimmt die Anfälligkeit nicht ab, sondern zu. Größere und leistungsfähigere Modelle, einschließlich jener mit ausgeprägtem Testzeit-Reasoning, erwiesen sich als besonders leicht beeinflussbar, wenn Oberflächenelemente mit autoritativem Ton, impliziten Empfehlungen oder künstlicher Dringlichkeit arbeiteten.
Das ist strategisch bedeutsam, weil es ein verbreitetes Missverständnis auflöst. Mehr Kompetenz bei der Aufgabenerfüllung bedeutet eben nicht automatisch mehr Robustheit gegenüber Manipulation. Im Gegenteil: Gerade starke Instruktionsbefolgung kann in einem manipulativ gestalteten Interface zum Einfallstor werden.
Bestimmte Muster treffen Agenten besonders zuverlässig
Eine zweite Arbeit, angenommen für das IEEE Symposium on Security and Privacy 2026, untersucht genauer, welche Arten dunkler Muster besonders wirksam sind. Laut der Purdue-Studie erzielten Obstruction-Patterns, also Designs, die Fortschritt blockieren, bis der Nutzer etwas akzeptiert, eine Erfolgsrate von 52,2 Prozent gegenüber den getesteten Agenten. Social-Engineering-Muster folgten mit 47,9 Prozent.
Diese Zahlen sind deshalb plausibel, weil sie auf bekannte Mechanismen des Webs verweisen. Ein Dialogfenster mit der Formulierung „empfohlen“, ein künstlicher Countdown oder eine bewusst einseitige Button-Hierarchie genügt oft schon. Was Menschen mit einer gewissen Skepsis betrachten, lesen Agenten häufig als legitime Handlungsanweisung innerhalb des Arbeitsablaufs.
Getestet wurden sechs verbreitete Agentensysteme, darunter Skyvern, BrowserUse und DoBrowser. Das Muster zeigte sich agentübergreifend. Skyvern war laut den im Ausgangstext zitierten Werten in 72,3 Prozent der Fälle anfällig, BrowserUse in 69,3 Prozent. Daraus ergibt sich eine unbequeme Paradoxie: Je besser ein Agent Aufgaben abschließt, desto schlechter scheint er sich gegen Interface-Manipulation zu behaupten.
Auf realen Websites verschwindet das Problem keineswegs
Besonders aufschlussreich ist deshalb SusBench von Forschenden der University of Washington, Carnegie Mellon und Rutgers. Anders als in rein synthetischen Testumgebungen wurden hier neun Dark-Pattern-Typen in 55 reale Websites injiziert. Die SusBench-Arbeit berichtet, dass Hidden Information eine Anfälligkeit von 89 Prozent erreichte, während vorselektierte Optionen Agenten in 71 Prozent der Fälle täuschten.
Das ist deshalb relevant, weil gerade diese Muster für Menschen inzwischen teilweise erkennbar geworden sind. Viele haben eine Art Banner-Blindheit entwickelt, also ein gelerntes Misstrauen gegenüber überbetonten Zustimmungsbuttons, künstlicher Eile und verdächtig prominenten Empfehlungen. Diese Skepsis ist unvollkommen, aber vorhanden.
Bei Agenten fehlt eine solche soziale Heuristik. Sie verarbeiten jedes sichtbare Element zunächst als potenziell relevante Instruktion. Ein Cookie-Banner mit „Accept All (Recommended)“ liest sich dann nicht als Verkaufstrick, sondern als autoritative Empfehlung. Ein künstlicher Countdown aktiviert keine Skepsis, sondern den Drang, die Aufgabe effizient abzuschließen.
Bestehende Schutzmechanismen reichen bislang nicht aus
Beruhigend wäre die Annahme, man müsse nur zusätzliche Guardrails oder bessere Prompts einbauen. Genau das legen die Daten aber nicht nahe. Die DECEPTICON-Autoren berichten, dass In-Context-Prompting und Guardrail-Modelle die Erfolgsraten manipulativer Eingriffe nicht konsistent senken konnten. Das Problem sitzt also nicht an der Peripherie, sondern näher an der Grundlogik dieser Systeme.
Das ist nachvollziehbar. Ein Agent wird dafür gebaut, Anweisungen präzise zu befolgen, Oberflächensignale zu interpretieren und Reibung zu minimieren. Dark Patterns nutzen eben diese Eigenschaften systematisch aus. Das Nützliche und das Ausnutzbare liegen hier architektonisch sehr nahe beieinander.
Für Unternehmen, die Agenten bereits bei Einkauf, Reisebuchung, Formularbearbeitung oder Finanzprozessen einsetzen, ist das keine abstrakte Warnung. Denkbar sind unautorisierte Abonnements, weitreichende Cookie-Zustimmungen, Käufe unter Lockpreis-Effekten oder Datenfreigaben im Namen des Nutzers. In einem Kommentar bei FedScoop mit Bezug auf Lasso Security wird deshalb betont, dass KI-Browser die Grenze zwischen menschlicher Absicht und Agentenhandlung verwischen, insbesondere in authentifizierten Sitzungen.
Der eigentliche Befund ist noch grundsätzlicher
Das Web wurde lange dafür optimiert, menschliche Aufmerksamkeit, Müdigkeit, Ungeduld und Impulsivität auszunutzen. Mit autonomen Agenten verschwindet diese Persuasionsarchitektur nicht. Sie trifft nun auf Systeme, denen soziale Skepsis, Kontextmisstrauen und intuitive Vorsicht weitgehend fehlen.
Die wahrscheinlich wichtigste Schlussfolgerung lautet daher: Das leistungsfähigste Modell ist heute nicht automatisch das sicherste. Bis Webagenten etwas entwickeln, das menschlicher Skepsis funktional ähnelt, bleibt jede autonome Browsersitzung eine Wette gegen ein Netz voller Oberflächen, die für gehorsame Besucher besonders wirksam gestaltet wurden.
Quellen und Referenzen
Erfahren Sie mehr über unsere redaktionellen Standards →



