AI-agents vs ChatGPT: 30 dagen productiviteitstest

Ik heb twee maanden vrijwel hetzelfde werk gedaan, maar met een andere opzet. In de eerste maand ging alles door één ChatGPT-venster: research, mails, copy, codefeedback, planning en kleine operationele taken. Dat voelde productief. Je krijgt snel antwoord, je houdt tempo en je hebt het idee dat je weinig laat liggen. In de tweede maand zette ik hetzelfde werk om naar een workflow met meerdere gespecialiseerde agents die taken aan elkaar doorgaven. Het verschil was minder spectaculair in gevoel dan in uitkomst. Ik voelde me niet ineens slimmer. Ik maakte vooral meer dingen echt af.

Dat onderscheid is belangrijk, zeker als je nuchter naar ROI wilt kijken. Veel AI-gebruik draait nog om de vraag welk model de beste output geeft. In de praktijk zit de winst vaak eerder in de manier waarop je het werk opsplitst. Een enkele tool voor vijf soorten werk klinkt efficiënt, maar kan juist duurder uitpakken doordat context vervuilt, taken door elkaar gaan lopen en afronding achterblijft. De vraag is dus niet alleen wat een model kost per maand. De vraag is wat een verkeerde werkstructuur je per taak kost.

Waarom één chatvenster duurder is dan het lijkt

De klassieke fout is dat je ChatGPT als Zwitsers zakmes gebruikt. Alles gaat in dezelfde context, omdat het handig voelt om eerdere informatie te behouden. Alleen werkt dat maar tot op zekere hoogte. Research vraagt om breed zoeken en tegenspraak. Schrijven vraagt om lijn, stijl en iteratie. Operationeel werk vraagt om herhaalbaarheid. Stop je dat in één gesprek, dan neem je steeds resten van de vorige taak mee naar de volgende.

Dat sluit aan bij Google Research. Bij taken die je parallel kunt opdelen, presteerden gecentraliseerde multi-agent systemen 80,9% beter dan één agent. Bij strikt sequentiële taken ging de prestatie juist 39% tot 70% omlaag. Meer agents is dus geen standaardupgrade. Het werkt alleen als de taakstructuur erbij past. Dat is precies het soort detail dat je nodig hebt als je geen zin hebt in AI-hype, maar wel in een bruikbare werkmethode.

Hoe ik het werk in drie banen splitste

Mijn 30-dagentest begon met een simpele indeling: research, creatie en operatie. Research was parallel, omdat meerdere bronnen tegelijk verwerkt konden worden. Creatie was sequentieel, omdat tekst, argumentatie en redactie in elkaars verlengde liggen. Operatie was gemengd: planning, formatting, bestandsbeheer en kleine routineklussen. Elk deel kreeg een eigen agent, met een eigen prompt, een eigen context en een eigen outputformaat.

Vanaf week twee begon dat op te tellen. De research-agent leverde schonere input aan, omdat die niet vol zat met restjes van copy of operationele rompslomp. De schrijfagent kreeg voorbewerkte input in plaats van losse links. De operationele agent haalde kleine fricties uit het proces zonder aan de creatieve kant te zitten. Een veldexperiment van Harvard en MIT laat iets vergelijkbaars zien: de productiviteitswinst zat vooral in taakgerichte communicatie en duidelijke delegatie, niet in een soort magisch slimmere AI.

Wanneer meer agents juist slechter werken

Daar zit ook meteen het risico. Zodra agents te veel context delen zonder duidelijke regie, krijg je geen slim team maar een echo. De ene agent neemt iets aan, de volgende herformuleert die aanname en de derde poetst het op. Dan oogt het resultaat coherent, terwijl de fout gewoon dieper in het proces is geslopen. Volgens Google Research werden fouten in onafhankelijke multi-agent systemen tot 17,2 keer versterkt. Met centrale coördinatie daalde dat naar 4,4 keer.

Je wilt dus geen volledige harmonie. Je wilt gecontroleerde spanning. De research-agent moet tegenstrijdige bronnen laten zien. De schrijfagent moet claims zonder onderbouwing afremmen. De review-agent moet gaten vinden. Dat sluit goed aan bij de les van McKinsey QuantumBlack: de waarde zit niet in de agent zelf, maar in het opnieuw ontwerpen van de workflow eromheen.

De rekenfout die je ROI opeet

De cijfers uit mijn test waren vrij eenvoudig. In de maand met alleen ChatGPT startte ik 47 projecten en rondde ik er 31 af. Gemiddelde doorlooptijd per afgerond project: 4,2 uur. In de multi-agent maand startte ik 44 projecten, iets minder dus, omdat de setup tijd kostte. Maar ik rondde er 42 af. De gemiddelde tijd per afgerond project daalde naar 2,8 uur. Het grote verhaal zat niet eens vooral in snelheid, maar in afronding: 66% versus 95%.

Voor een no-nonsense ROI-berekening is dat interessanter dan een losse demo. Je bespaart ongeveer 1,4 uur per afgeronde taak. Bij 42 afgeronde projecten is dat grofweg 59 uur capaciteit in een maand. Reken je voor een zzp’er of klein bureau met bijvoorbeeld een intern of factureerbaar tarief van ongeveer €75 per uur, dan praat je over ruim €4.400 aan vrijgespeelde capaciteit. Dat is natuurlijk een voorbeeld, geen universele waarheid. Maar het laat wel zien waarom architectuur vaak meer oplevert dan nog een extra prompttruc.

Wat je hier praktisch mee moet

Je hoeft niet te beginnen met een hele stoet agents. Voor de meeste mensen is één splitsing genoeg om verschil te merken: zet research apart van creatie. Daardoor wordt je context schoner en je overdracht strakker. Voeg daarna pas een operationele agent toe als je merkt dat kleine taken je aandacht blijven opvreten. Dat is meestal ook het moment waarop de workflow echt rustig wordt.

De markt beweegt duidelijk deze kant op. Gartner verwacht dat eind 2026 40% van de enterprise-apps taakgerichte AI-agents bevat. Alleen zegt dat nog niets over wie er echt waarde uit haalt. Wie gewoon meer AI op een rommelig proces plakt, koopt vooral extra complexiteit. Wie de werkstraat opnieuw ontwerpt, koopt tijd terug. En uiteindelijk is dat de enige metric die telt.

De echte winst zit niet in ChatGPT, maar in de werkstraat eromheen

Waarom één chatvenster duurder is dan het lijkt

Hoe ik het werk in drie banen splitste

Wanneer meer agents juist slechter werken

De rekenfout die je ROI opeet

Wat je hier praktisch mee moet

Bronnen en Referenties

Misschien vind je dit ook leuk:

Kleine AI-modellen kunnen al veel meer dan je denkt

Je AI-assistent schond zijn eigen privacybeleid 214 keer

287 bedrijven wisselden van LLM en bespaarden 75%