KI-Agenten vs. ChatGPT: ein 30-Tage-Vergleich

Im Januar habe ich einen Vergleich durchgeführt, der bewusst unspektakulär angelegt war. Einen Monat lang lief praktisch jede Arbeitsaufgabe durch ein einziges ChatGPT-Fenster: Recherche, E-Mails, Code-Reviews, Marketingtexte, Briefings, kleine operative Routinen. Das funktionierte zunächst erstaunlich gut. Die subjektive Erfahrung war eindeutig: viel Output, wenig Reibung, ein permanentes Gefühl von Produktivität. Im darauffolgenden Monat habe ich denselben Arbeitsalltag auf einen Multi-Agenten-Workflow umgestellt, bei dem spezialisierte Systeme Aufgaben entlang eines klaren Prozesses weiterreichten. Erst dort zeigte sich der eigentliche Unterschied.

Die provokante These lautet deshalb nicht, dass Multi-Agenten-Systeme grundsätzlich besser seien als ein einzelnes starkes Modell. Die belastbarere Aussage ist kleiner und zugleich wichtiger: Architektur schlägt Tool-Faszination. Wer alles in ein einziges Kontextfenster presst, vermischt Arbeitsmodi, die unterschiedliche Logiken brauchen. Genau diese Vermischung war im Versuch der eigentliche Produktivitätsverlust. Für ein deutschsprachiges Publikum ist deshalb weniger die Schlagzeile interessant als die reproduzierbare Frage: Unter welchen Bedingungen verbessert ein Agentensystem Ergebnisse, und unter welchen Bedingungen verschlechtert es sie?

Worin der Versuchsaufbau bestand

Der Aufbau war bewusst einfach. Ich habe wiederkehrende Aufgaben in drei Gruppen eingeteilt: Recherche, Schreiben und operative Arbeit. Recherche war parallelisierbar, weil mehrere Informationsstränge gleichzeitig bearbeitet werden konnten. Schreiben war überwiegend sequenziell, weil Argumentationslogik, Tonalität und Überarbeitung aufeinander aufbauen. Operative Arbeit war gemischt: Formatierung, Terminierung, Ablage, Checklisten, kleine Übergaben.

Jede Gruppe erhielt einen eigenen Agenten mit separatem Systemprompt, klar abgegrenztem Kontext und festem Ausgabeformat. Das klingt nach einer eher technischen Änderung, hatte aber methodisch einen entscheidenden Vorteil: Jede Einheit arbeitete mit einer engeren Aufgabenklasse und damit mit weniger Kontextverschmutzung. Genau darin liegt der Kern des Vergleichs. Ich habe nicht einfach mehr KI hinzugefügt. Ich habe die Arbeitsstruktur expliziter gemacht.

Warum ein einzelnes Kontextfenster häufig Arbeit vermischt

Der klassische Fehler von Power-Usern besteht darin, ein Modell wie ein Universalwerkzeug zu behandeln. Alles landet in derselben Sitzung, weil man annimmt, dass mehr Verlauf automatisch mehr Qualität bedeutet. In Wirklichkeit kann derselbe Verlauf gegenteilig wirken. Recherche verlangt Offenheit gegenüber Widersprüchen. Schreiben verlangt Verdichtung und Stringenz. Operative Aufgaben verlangen Regelmäßigkeit und Präzision. Werden diese Modi vermischt, entsteht schleichend Qualitätsverlust.

Genau das bestätigt Google Research. Bei parallelisierbaren Aufgaben verbesserten zentral koordinierte Multi-Agenten-Systeme die Leistung um 80,9 Prozent gegenüber einem Ein-Agenten-System. Bei streng sequenziellen Aufgaben verschlechterten hingegen sämtliche getesteten Multi-Agenten-Varianten die Leistung um 39 bis 70 Prozent. Die Schlussfolgerung ist für die Praxis ausgesprochen nützlich: Man sollte nicht mit der Frage beginnen, ob Agenten modern sind, sondern ob eine Aufgabe zerlegbar ist oder nicht.

Der Konfigurationsfehler, der Ergebnisse verfälscht

Die zweite große Fehlerquelle ist nicht fehlende Modellqualität, sondern schlechte Koordination. Wenn mehrere Agenten Kontext teilen, ohne dass jemand ihre Annahmen gegeneinander prüft, entsteht schnell ein Echoeffekt. Ein Agent setzt eine stillschweigende Annahme, der nächste formuliert sie um, der dritte verdichtet sie, und am Ende wirkt der Fehler nur deshalb plausibel, weil er mehrfach wiederholt wurde.

Auch hierfür liefert Google Research eine präzise Kenngröße. Unabhängige Multi-Agenten-Systeme verstärkten Fehler um das 17,2-Fache. Zentral koordinierte Systeme reduzierten diese Fehlerverstärkung auf das 4,4-Fache. Das bedeutet praktisch: Ein Orchestrator ist nicht bloß Komfortfunktion, sondern Qualitätssicherung. Agenten sollten einander also nicht nur unterstützen, sondern in wichtigen Punkten widersprechen. Ein Recherche-Agent sollte Gegenbelege finden, ein Schreib-Agent Behauptungen ohne Belege markieren, ein Review-Agent Lücken offenlegen.

Welche KPIs sich nach 30 Tagen verändert haben

Die Kennzahlen waren klar. Im Monat mit ChatGPT allein wurden 47 Projekte begonnen und 31 abgeschlossen. Die durchschnittliche Bearbeitungszeit pro abgeschlossenem Projekt lag bei 4,2 Stunden. Im Multi-Agenten-Monat wurden 44 Projekte begonnen, also leicht weniger, weil die Einrichtung Zeit kostete. Abgeschlossen wurden jedoch 42. Die durchschnittliche Bearbeitungszeit sank auf 2,8 Stunden. Noch aussagekräftiger als die Zeitersparnis war die Abschlussquote: 66 Prozent gegenüber 95 Prozent.

Das ist der Punkt, an dem subjektiv empfundene Produktivität und tatsächlicher Durchsatz auseinanderfallen. Ein Werkzeug kann sich äußerst produktiv anfühlen und dennoch zu viele halbfertige Vorhaben hinterlassen. Ein Feldexperiment von Harvard und MIT verweist auf einen ähnlichen Mechanismus: Produktivitätsgewinne entstanden dort vor allem durch stärker aufgabenorientierte Kommunikation und durch klarere Delegation, nicht bloß durch ein vermeintlich „klügeres“ System. Die McKinsey-Analyse formuliert denselben Grundsatz noch nüchterner: Entscheidend ist der Workflow, nicht der Agent als isoliertes Objekt.

Was Sie daraus praktisch ableiten können

Für die Umsetzung braucht es kein komplexes Agentenökosystem. Es genügt, zunächst nur eine Trennlinie einzuziehen: Recherche und Erstellung gehören nicht in denselben Kontext. Diese eine Entscheidung reduziert Vermischung, verbessert Übergaben und macht sichtbar, welche Arbeitsschritte tatsächlich standardisiert werden können. Erst danach lohnt es sich, operative Routinen als dritten Bereich auszulagern.

Dass sich der Markt in diese Richtung bewegt, zeigt auch die Gartner-Prognose, wonach bis Ende 2026 40 Prozent der Unternehmensanwendungen aufgabenspezifische KI-Agenten enthalten werden. Gleichzeitig mahnt Gartner zur Vorsicht, weil viele Projekte an Kosten, unklarem Nutzen oder schlechter Risikokontrolle scheitern. Genau deshalb lautet die nüchterne Schlussfolgerung aus dem Selbstversuch nicht, dass Sie möglichst viele Agenten brauchen. Sie brauchen eine Arbeitsarchitektur, in der jedes System nur das tut, wofür es tatsächlich geeignet ist. Der Vorteil liegt nicht im Agenten. Er liegt in der sauberen Trennung von Aufgaben, Kontext und Verantwortung.

Der eigentliche Vorteil liegt nicht im Tool, sondern im Aufbau

Worin der Versuchsaufbau bestand

Warum ein einzelnes Kontextfenster häufig Arbeit vermischt

Der Konfigurationsfehler, der Ergebnisse verfälscht

Welche KPIs sich nach 30 Tagen verändert haben

Was Sie daraus praktisch ableiten können

Quellen und Referenzen

Das könnte Sie auch interessieren:

Kleine KI-Modelle leisten heute mehr, als viele vermuten

Ihr KI-Assistent verletzte seine eigene Datenschutzrichtlinie 214 Mal

287 Firmen tauschten ihr LLM gegen kleine Modelle, Kosten -75 %