Vibe Coding: schnell ausgeliefert, unsicher gebaut

Ein Entwickler baut an einem Wochenende ein komplettes SaaS-Produkt. Kaum Framework-Erfahrung, keine ernsthafte Security-Schulung, kein Code Review. Die Anwendung funktioniert, die Demo wirkt überzeugend, die erste Version steht schneller als früher ein Wireframe. Dann fällt auf, was im Rausch der Geschwindigkeit niemand geprüft hat: API-Schlüssel liegen offen im Netz.

Darin steckt der eigentliche Widerspruch von Vibe Coding im Jahr 2026. Noch nie ließ sich Software so schnell ausliefern. Noch nie ließ sich dabei so schnell Unsicherheit in Produktion bringen.

Funktionsfähig ist nicht dasselbe wie sicher

Die härteste Zahl kommt von Veracode. Das Unternehmen testete mehr als 100 große Sprachmodelle anhand von 80 realitätsnahen Coding-Aufgaben. Das Ergebnis: 45% des KI-generierten Codes fielen in Sicherheitstests durch und brachten Schwachstellen aus den OWASP Top 10 direkt in produktionsnahe Systeme. Besonders problematisch war Java mit einer Fehlerrate von mehr als 70%. Python, C# und JavaScript lagen zwischen 38% und 45%.

Gerade der Kontrast macht den Befund so relevant. Vor zwei Jahren liefen weniger als 20% der erzeugten Codebeispiele überhaupt erfolgreich. Heute kompilieren rund 90% beim ersten Versuch. Die Modelle sind also wesentlich besser darin geworden, korrekt wirkenden Code zu erzeugen. Bei der Sicherheit ist dieser Fortschritt jedoch nahezu ausgeblieben. Genau das betont auch die Einordnung bei Help Net Security zum Veracode-Bericht: Modelle verbessern sich beim präzisen Coden, nicht beim sicheren Coden.

Auch größere Modelle lösen das Problem nicht. Neuere LLMs schreiben nicht automatisch sicherer als kleinere Vorgänger.

Mit jeder Prompt-Runde wächst das Risiko im Hintergrund

Viele Teams kennen genau dieses Muster: Erst entsteht ein Grundgerüst, dann folgen fünf kleine Nachbesserungen. Bitte noch diese Funktion. Bitte noch eine Ausnahme. Bitte noch Rollenrechte. Bitte noch eine Integration. Was nach normaler Iteration klingt, verschlechtert die Sicherheitslage messbar. Laut Kaspersky enthielt der Code nach nur fünf Prompt-Iterationen bereits 37% mehr kritische Schwachstellen als in der ursprünglichen Generation. Feature-orientierte Prompts erzeugten im Test insgesamt 158 neue Schwachstellen, darunter 29 kritische.

Der Grund ist technisch naheliegend. Jede Änderung erhöht die Komplexität, ohne dass das Modell ein belastbares Architekturverständnis mitbringt. Es optimiert auf die Frage, ob etwas funktioniert. Es beantwortet weit schlechter, ob das Gesamtsystem unter neuen Bedingungen weiterhin konsistent abgesichert ist. So entstehen Muster, die sich mit Sicherheitslücken in Agenten-Infrastrukturen vergleichen lassen: einzeln plausibel, im Verbund gefährlich.

Kurz gesagt: Die Anwendung kann nach außen reifer aussehen und intern zugleich fragiler werden.

Das eigentliche Problem ist oft Geschäftslogik, nicht SQL Injection

Genau hier lohnt die Differenzierung. Eine Studie vom Dezember 2025, aufgegriffen von CSO Online auf Basis der Tenzai-Untersuchung, testete fünf große Coding-Werkzeuge, darunter Claude Code, Codex, Cursor, Replit und Devin. Dafür wurden mit jedem Tool drei identische Anwendungen gebaut. Insgesamt fanden sich 69 Schwachstellen in 15 Anwendungen.

Überraschend war nicht nur die Menge, sondern die Art der Fehler. Klassische, direkt ausnutzbare SQL-Injections oder Cross-Site-Scripting-Lücken traten nicht als zentrales Muster auf. Diese gut dokumentierten Angriffstypen sind den Modellen weitgehend antrainiert worden. Das größere Risiko lag in Geschäftslogikfehlern.

Ein Checkout, bei dem Nutzer ihren Preis selbst setzen können. Ein API-Endpunkt, der einer clientseitigen Autorisierung vertraut. Ein System, das syntaktisch korrekt ist und trotzdem fachlich falsch absichert. Genau solche Lücken übersehen Unternehmen ohne echte Abwehr gegen KI-bezogene Exploits regelmäßig, weil dafür Kontextverständnis nötig ist und nicht nur formal richtiger Code.

81% schneller kann später sehr teuer werden

Dass KI Geschwindigkeit erzeugt, ist nicht bloß Marketing. Nur wird diese Geschwindigkeit oft zu früh gemessen. InfoQ fasste eine Analyse von Ox Security mit einer treffenden Formulierung zusammen: Der erzeugte Code ist hoch funktional, aber systematisch arm an architektonischem Urteilsvermögen. In 80% bis 90% der untersuchten Projekte fanden sich immer wieder dieselben Anti-Patterns: zu viele Kommentare, vermiedene Refactorings, Über-Spezifikation und wiederkehrende Fehler, die eigentlich dauerhaft hätten beseitigt werden müssen.

Die Analystin Ana Bildea spricht in diesem Zusammenhang von exponentieller technischer Schuld. Klassische Tech Debt wächst linear. KI-gestützte Tech Debt kumuliert. Zunächst steigen Feature-Tempo und Output sichtbar. Später verschlingen Patches, Sicherheitskorrekturen und Umbauten den gesamten Vorsprung. Genau darin ähneln sich Produktivitätsgewinne durch KI, die im Nacharbeiten verschwinden.

Auch die subjektive Wahrnehmung täuscht. Die im Ausgangstext erwähnte METR-Studie zeigte, dass sich Entwickler um 20% schneller fühlten, in realen Codebasen jedoch 19% langsamer waren. Der Tempoeffekt ist also zunächst spürbar. Die Rechnung folgt zeitversetzt.

Die wirksame Lösung zerstört den Mythos vom mühelosen Bauen

Der vielleicht unangenehmste Befund lautet deshalb: Sicherheitsfokussiertes Prompting wirkt, aber es wird kaum konsequent eingesetzt. Laut Kaspersky halbierte bereits ein generischer Hinweis auf sichere Coding-Best-Practices die Schwachstellenrate. Sprachspezifische Sicherheitsvorgaben reduzierten sie weiter.

Genau damit kollidiert allerdings das Versprechen des Vibe Coding. „Baue mir ein Zahlungssystem“ ist schnell. „Baue mir ein Zahlungssystem mit serverseitiger Autorisierungsprüfung, Eingabesäuberung, Rate Limiting und OWASP-konformer Absicherung“ verlangt bereits dasselbe Nachdenken, das man eigentlich umgehen wollte.

Die Unternehmen, die hier besser abschneiden, behandeln KI-Code deshalb nicht als Ersatz für Engineering-Urteil, sondern als ersten Entwurf. Das Muster ähnelt der Frage, warum die meisten Unternehmen KI einsetzen, aber kaum davon profitieren: Das Tool kann beschleunigen, die Verantwortung für Architektur und Risiko bleibt menschlich.

Vibe Coding liefert schnell aus. Die entscheidende Frage ist nur, ob Sie sich leisten können, später zu reparieren, was heute so elegant entstanden ist.

Der Code ist schneller da, die Sicherheitslücke gleich mit

Funktionsfähig ist nicht dasselbe wie sicher

Mit jeder Prompt-Runde wächst das Risiko im Hintergrund

Das eigentliche Problem ist oft Geschäftslogik, nicht SQL Injection

81% schneller kann später sehr teuer werden

Die wirksame Lösung zerstört den Mythos vom mühelosen Bauen

Quellen und Referenzen

Das könnte Sie auch interessieren:

KI-Agenten scheitern oft. Warum Firmen sie trotzdem nutzen

Kleine KI-Modelle leisten heute mehr, als viele vermuten

Ihr KI-Assistent verletzte seine eigene Datenschutzrichtlinie 214 Mal