Gewoontevorming: waarom wilskracht faalt en wat wel werkt

Een retailbedrijf betaalde maandelijks omgerekend zo’n 30.000 euro aan AI-kosten. Na één aanpassing in hun modelkeuze daalde dat naar iets meer dan 2.000 euro. Geen langlopend migratieproject, geen infrastructuurverbouwing: ze vervingen hun grote taalmodel door een fijnafgesteld alternatief met 7 miljard parameters.

Ze staan niet alleen. Uit 287 gedocumenteerde cases blijkt dat bedrijven die overstappen van generieke grote taalmodellen (LLM’s) naar kleinere, taakgerichte modellen (SLM’s) kostenreducties rapporteren van 75% tot 99%, met prestaties die gelijkwaardig of beter zijn.

De cijfers achter de stille verschuiving

Gartner voorspelt dat organisaties tegen 2027 taakgerichte kleine AI-modellen drie keer zo vaak zullen inzetten als algemene grote taalmodellen. Die voorspelling oogt nu al voorzichtig.

De economische realiteit is onverbiddelijk voor LLM-aanbieders. Het verwerken van een miljoen gesprekken via een groot taalmodel kost tussen de 14.000 en 70.000 euro. Dezelfde werkbelasting via een zelfgehost klein model kost 140 tot 750 euro. Dat is geen marginale verbetering: het is een structurele verschuiving in AI-operatiekosten.

Antecedentenonderzoeksbedrijf Checkr fijnstelde een Llama-3-8B-model dat beter presteerde dan GPT-4 terwijl het 30 keer sneller draaide en 5 keer goedkoper was. NVIDIA’s eigen fijngestelde 8B-model overtrof zowel hun 70B- als 340B-modellen bij codebeoordeling. Een Phi-3-model met 3,8 miljard parameters haalde 96% nauwkeurigheid bij het classificeren van financiële koppen, waar GPT-4o op 80% bleef steken.

Dit zijn geen uitzonderingen. Dit is het patroon.

Waarom kleinere modellen winnen bij specifieke taken

De aanname dat grotere modellen slimmere modellen zijn, houdt geen stand zodra je de taak vernauwt. Een academisch onderzoek dat vijf SLM’s vergeleek met drie LLM’s (modellen die 100 tot 300 keer groter waren) vond een gemiddeld prestatieverschil van slechts 2%, statistisch niet significant. Op specifieke maatstaven zoals recall scoorden de kleinere modellen zelfs hoger: 0,96 tegenover 0,90 voor de grote modellen.

De onderzoekers concludeerden dat de kenmerken van de dataset zwaarder wegen dan de omvang van het model. Praktisch vertaald: een 7B-model getraind op de daadwerkelijke data van jouw bedrijf begrijpt jouw domein beter dan een model met een biljoen parameters dat het hele internet heeft gelezen, maar nooit jouw specifieke processen heeft gezien.

Niet toevallig zijn bedrijven die nul rendement op AI zien vaak degenen die het meeste geld uitgeven aan de allergrootste modellen. Tegelijkertijd verdient slechts 6% daadwerkelijk aan AI, en dat zijn doorgaans de bedrijven die het juiste model aan de juiste taak koppelen.

Het hybride draaiboek dat werkt

De winnende strategie is niet om elk groot model te vervangen door een klein model. Het gaat erom 80% van de voorspelbare verzoeken naar snelle, goedkope kleine modellen te routeren en alleen de complexe 20% door te sturen naar grotere.

Een autofabrikant fijnstelde Phi-3 voor kwaliteitsinspectie en verkleinde de inspectietijd met 87% (van 15 minuten naar 2 minuten) met 94% nauwkeurigheid, wat jaarlijks ruim een miljoen euro bespaarde. Een zorgnetwerk van vijftig artsen implementeerde Llama 3.2 op eigen servers voor klinische documentatie, wat documentatietijd met 67% verminderde en miljoenen aan hersteld omzetverlies opleverde.

Het break-evenpunt voor zelfhosting is lager dan de meeste teams verwachten: ruwweg 8.000 gesprekken per dag of zo’n 460 euro per maand aan API-uitgaven. Consumentengpu’s van rond de 1.850 euro kunnen modellen met 24 tot 32 miljard parameters draaien en verdienen zichzelf binnen drie maanden terug.

Wat je concurrent al weet

On-premise AI-inferentie groeide van 12% van alle implementaties in 2023 naar 55% in 2025, een toename van 4,6 keer. Die verschuiving gaat niet alleen over privacyzorgen (hoewel dat meeweegt). Het gaat erom dat bedrijven hun eigen AI-oplossingen bouwen die een fractie kosten van API-afhankelijke alternatieven.

De bedrijven die overhaast AI invoerden zonder strategie hebben daar nu spijt van. De bedrijven die het wel goed doen, gebruiken niet het krachtigste beschikbare model. Ze gebruiken het kleinste model dat de klus klaart, fijngesteld op 200 tot 500 gelabelde voorbeelden, draaiend op hardware die ze zelf bezitten.

Die maandelijkse AI-rekening van tienduizenden euro’s is geen teken van geavanceerdheid. Het is een teken dat niemand heeft gevraagd of een model dat vijftig keer kleiner is hetzelfde werk kan doen. Voor 287 bedrijven was het antwoord: ja.

Gerelateerd:

43% van je dag draait op de automatische piloot, en wilskracht lost dat niet op

De cijfers achter de stille verschuiving

Waarom kleinere modellen winnen bij specifieke taken

Het hybride draaiboek dat werkt

Wat je concurrent al weet

Bronnen en Referenties

Misschien vind je dit ook leuk:

Als AI beter antwoordt, leren wij dan minder?

De flashcard die je bijna fout hebt werkt beter

Het denkkader dat alle andere mentale modellen laat werken