92 Prozent Erfolgsquote: so leicht lassen sich KI-Agenten kapern
92 Prozent Erfolgsquote: wie Angreifer KI-Agenten übernehmen
Ein mehrstufiger Prompt-Injection-Angriff gelingt bei großen Sprachmodellen in 92 Prozent aller Fälle. Nicht im Labor, nicht unter idealen Bedingungen, sondern über acht produktionsreife Open-Weight-Modelle hinweg, getestet im Cisco State of AI Security Report 2026. Der KI-Agent, den Ihr Unternehmen im letzten Quartal für Kundentickets, Datenbankzugriffe oder Codeentwicklung eingesetzt hat, wird mit nahezu sicherer Wahrscheinlichkeit genau das tun, was ein Angreifer verlangt: vorausgesetzt, dieser formuliert seine Anweisungen geschickt über mehrere Nachrichten hinweg.
Der entscheidende Punkt, den die meisten Berichte übersehen: Das Problem liegt nicht darin, dass KI-Agenten „dumm“ wären. Das Problem liegt in ihrer Architektur. Sie wurden darauf optimiert, hilfreich zu sein. Prompt Injection (das Einschleusen manipulativer Anweisungen) nutzt genau diese Kernarchitektur aus; es handelt sich nicht um einen Fehler, der sich einfach patchen lässt. Wie Bruce Schneier und Barath Raghavan im IEEE Spectrum argumentierten, fallen KI-Systeme auf Manipulationstaktiken herein, die selbst einen minimal geschulten menschlichen Mitarbeiter nicht täuschen würden.
Ihr vertrauenswürdigster digitaler Mitarbeiter ist zugleich Ihr größtes Risiko
67 Prozent der Organisationen setzen bereits agentische KI ein (autonome KI-Systeme, die eigenständig handeln). Nur 29 Prozent sind darauf vorbereitet, diese Deployments abzusichern. Wenn ein agentischer KI-Agent kompromittiert wird, wiederholt er nicht einfach den Fehler: er eskaliert, greift auf verbundene Systeme zu und propagiert den Angriff durch jeden Workflow, den er berührt.
Die unsichtbare Angriffsfläche, die niemand prüft
Eine EY-Umfrage ergab, dass 80 Prozent der Unternehmen bereits riskantes Verhalten ihrer KI-Agenten beobachtet haben. Nur 21 Prozent der Führungskräfte berichten über vollständige Transparenz. 86 Prozent fehlt die Übersicht über KI-Datenflüsse. Sicherheitsvorfälle durch Schatten-KI (unkontrollierte KI-Nutzung ohne IT-Freigabe) kosten im Durchschnitt 670.000 US-Dollar mehr als herkömmliche Vorfälle.
Warum Schutzmaßnahmen immer wieder scheitern
Fine-Tuning-Angriffe (gezielte Nachtrainierung) umgingen Claude Haiku in 72 Prozent und GPT-4o in 57 Prozent der Fälle. OWASP stufte Prompt Injection auf Platz 1 seiner LLM Top 10 von 2025 ein.
Was tatsächlich funktioniert
Grenzen auf Systemebene wirken. Regeln auf Prompt-Ebene nicht. Laut MIT Technology Review muss Sicherheit von der Anweisung an das Modell zur Einschränkung der Umgebung verlagert werden: nicht das Modell instruieren, was es nicht tun soll, sondern die Umgebung so gestalten, dass es bestimmte Aktionen schlicht nicht ausführen kann.
Die Uhr läuft bereits
64 Prozent der Unternehmen mit über einer Milliarde US-Dollar Umsatz haben durch KI-Versagen bereits mehr als eine Million US-Dollar verloren. Die Frage ist nicht, ob Ihr KI-Agent angreifbar ist. Die Frage ist, ob Sie es bemerken würden.
Quellen und Referenzen
Erfahren Sie mehr über unsere redaktionellen Standards →



