92 Prozent Erfolgsquote: so leicht lassen sich KI-Agenten kapern

92 Prozent Erfolgsquote: wie Angreifer KI-Agenten übernehmen

Ein mehrstufiger Prompt-Injection-Angriff gelingt bei großen Sprachmodellen in 92 Prozent aller Fälle. Nicht im Labor, nicht unter idealen Bedingungen, sondern über acht produktionsreife Open-Weight-Modelle hinweg, getestet im Cisco State of AI Security Report 2026. Der KI-Agent, den Ihr Unternehmen im letzten Quartal für Kundentickets, Datenbankzugriffe oder Codeentwicklung eingesetzt hat, wird mit nahezu sicherer Wahrscheinlichkeit genau das tun, was ein Angreifer verlangt: vorausgesetzt, dieser formuliert seine Anweisungen geschickt über mehrere Nachrichten hinweg.

Der entscheidende Punkt, den die meisten Berichte übersehen: Das Problem liegt nicht darin, dass KI-Agenten „dumm“ wären. Das Problem liegt in ihrer Architektur. Sie wurden darauf optimiert, hilfreich zu sein. Prompt Injection (das Einschleusen manipulativer Anweisungen) nutzt genau diese Kernarchitektur aus; es handelt sich nicht um einen Fehler, der sich einfach patchen lässt. Wie Bruce Schneier und Barath Raghavan im IEEE Spectrum argumentierten, fallen KI-Systeme auf Manipulationstaktiken herein, die selbst einen minimal geschulten menschlichen Mitarbeiter nicht täuschen würden.

Ihr vertrauenswürdigster digitaler Mitarbeiter ist zugleich Ihr größtes Risiko

67 Prozent der Organisationen setzen bereits agentische KI ein (autonome KI-Systeme, die eigenständig handeln). Nur 29 Prozent sind darauf vorbereitet, diese Deployments abzusichern. Wenn ein agentischer KI-Agent kompromittiert wird, wiederholt er nicht einfach den Fehler: er eskaliert, greift auf verbundene Systeme zu und propagiert den Angriff durch jeden Workflow, den er berührt.

Die unsichtbare Angriffsfläche, die niemand prüft

Eine EY-Umfrage ergab, dass 80 Prozent der Unternehmen bereits riskantes Verhalten ihrer KI-Agenten beobachtet haben. Nur 21 Prozent der Führungskräfte berichten über vollständige Transparenz. 86 Prozent fehlt die Übersicht über KI-Datenflüsse. Sicherheitsvorfälle durch Schatten-KI (unkontrollierte KI-Nutzung ohne IT-Freigabe) kosten im Durchschnitt 670.000 US-Dollar mehr als herkömmliche Vorfälle.

Warum Schutzmaßnahmen immer wieder scheitern

Fine-Tuning-Angriffe (gezielte Nachtrainierung) umgingen Claude Haiku in 72 Prozent und GPT-4o in 57 Prozent der Fälle. OWASP stufte Prompt Injection auf Platz 1 seiner LLM Top 10 von 2025 ein.

Was tatsächlich funktioniert

Grenzen auf Systemebene wirken. Regeln auf Prompt-Ebene nicht. Laut MIT Technology Review muss Sicherheit von der Anweisung an das Modell zur Einschränkung der Umgebung verlagert werden: nicht das Modell instruieren, was es nicht tun soll, sondern die Umgebung so gestalten, dass es bestimmte Aktionen schlicht nicht ausführen kann.

Die Uhr läuft bereits

64 Prozent der Unternehmen mit über einer Milliarde US-Dollar Umsatz haben durch KI-Versagen bereits mehr als eine Million US-Dollar verloren. Die Frage ist nicht, ob Ihr KI-Agent angreifbar ist. Die Frage ist, ob Sie es bemerken würden.

92 Prozent Erfolgsquote: so leicht lassen sich KI-Agenten kapern

92 Prozent Erfolgsquote: wie Angreifer KI-Agenten übernehmen

Ihr vertrauenswürdigster digitaler Mitarbeiter ist zugleich Ihr größtes Risiko

Die unsichtbare Angriffsfläche, die niemand prüft

Warum Schutzmaßnahmen immer wieder scheitern

Was tatsächlich funktioniert

Die Uhr läuft bereits

Quellen und Referenzen

Das könnte Sie auch interessieren:

Post-Quanten-Kryptografie: Was sich jetzt wirklich lohnt

42 % aller Cyberangriffe laufen per KI, die wie Ihr Chef klingt

Ihre Stimme lässt sich in 3 Sekunden klonen: die KI-Betrugswelle