Kleine taalmodellen komen dicht bij GPT-4

Jarenlang was het verhaal in AI vrij eenvoudig: groter is beter. Meer parameters betekenden meestal betere prestaties, dus het leek logisch om aan te nemen dat serieuze taken automatisch om serieuze cloudmodellen vroegen. Alleen is die aanname inmiddels minder stevig dan veel mensen denken. Kleine taalmodellen zijn in korte tijd veel beter geworden, en juist daardoor schuift de economische logica onder AI-gebruik ongemerkt op.

Dat is geen theoretische discussie. Veel mensen betalen vandaag voor cloud-AI terwijl ze die topcapaciteit in de praktijk zelden nodig hebben. Een mail herschrijven, notulen samenvatten, informatie structureren of een stuk code laten afmaken: dat voelt slim en geavanceerd, maar het zijn vaak vrij afgebakende taken. En bij afgebakende taken telt niet per se het grootste model, maar het model dat snel genoeg, goed genoeg en goedkoop genoeg is.

Het idee dat alles een enorm model nodig heeft klopt niet meer

Een goed voorbeeld is Phi-4, beschreven in het technisch rapport van Microsoft Research. Met 14 miljard parameters verslaat het model GPT-4o op benchmarks voor wiskundig redeneren en wetenschappelijke vragen op gevorderd niveau, terwijl het lokaal op consumentenhardware kan draaien. Dat betekent niet dat grote modellen ineens overbodig zijn. Het betekent wel dat kleine modellen dichterbij zijn gekomen dan de meeste mensen doorhebben.

Die verschuiving staat ook centraal in een paper van NVIDIA Research en een analyse van NVIDIA Developer. De kern daarvan is praktisch: kleine taalmodellen zijn krachtig genoeg voor veel echte toepassingen, beter geschikt voor schaalbare agentische systemen en veel goedkoper. Niet elke vraag hoeft naar het grootste brein. Voor het meeste werk is dat zelfs nogal inefficiënt.

Het grootste deel van je AI-werk is gewoon routine

Bij taken met een duidelijke vorm, zoals samenvatten, classificeren, gestructureerd extraheren, standaardantwoorden genereren of code aanvullen, halen fijn afgestemde modellen van 3B tot 9B parameters inmiddels 80 tot 90 procent van de kwaliteit van GPT-4-achtige systemen. Dat is precies relevant omdat het over het soort werk gaat dat mensen werkelijk doen. Niet de exotische demo, maar de gewone werkdag.

Ook in geld scheelt dat flink. Een cloudabonnement of betaald gebruik van sterke modellen kan op jaarbasis makkelijk oplopen tot een paar honderd euro. Een lokaal model kost na het downloaden niets per prompt. Voor iemand die tientallen keren per dag AI gebruikt, is dat geen detail maar een structureel verschil. Het is ongeveer het verschil tussen een terugkerende softwarepost en een eenmalige keuze voor eigen gereedschap.

Waar de cloud nog wel duidelijk beter is

Dat betekent niet dat kleine modellen alles overnemen. Ze blijven zwakker bij extreem lange contexten, bij ingewikkelde meerstapsredeneringen zonder duidelijk patroon en bij problemen waarbij breed, actueel wereldkennis nodig is. Voor juridisch onderzoek over duizenden documenten, complexe strategievorming of echt nieuwe vragen is een frontiermodel in de cloud nog steeds vaak de betere optie.

De slimste aanpak is daarom niet alles lokaal of alles in de cloud, maar een combinatie. Routine lokaal, moeilijke vragen opschalen. Precies dat is het heterogene systeem waar NVIDIA op uitkomt: een klein model dat het makkelijke werk afhandelt en alleen escaleert als het echt nodig is. Dat klinkt minder spectaculair dan één gigantisch model voor alles, maar in de praktijk is het waarschijnlijk een veel logischer architectuur.

Je hardware is verder dan je gebruiksgedrag

Intussen is ook de hardware stilletjes volwassen geworden. Apple bouwde on-device modellen in zijn ecosysteem, Google bracht met Gemma 3 kleinere varianten voor telefoons en laptops uit, en Phi-4 is nu gewoon te downloaden voor consumentensystemen. Daarnaast liet peer-reviewed werk in Nature Communications zien dat multimodale modellen op GPT-4V-niveau ook op edge-apparaten inzetbaar zijn.

Dat verandert de ervaring meer dan benchmarkgrafieken doen vermoeden. Je laptop wordt dan niet langer alleen een doorgeefluik naar een datacenter, maar de plek waar het model zelf draait. Minder vertraging, minder afhankelijkheid van internet en meer controle over wat er met je invoer gebeurt. Juist dat soort stille verbeteringen blijken later vaak de echte omslagpunten.

De privacywinst wordt nog steeds onderschat

Naast kosten en snelheid is er nog een derde argument: privacy. Elke cloudprompt gaat per definitie over andermans servers. Daaronder vallen ook medische notities, ruwe e-mails, vergaderinhoud en zakelijke ideeën die je misschien liever helemaal niet extern verwerkt ziet worden. Zodra inferentie op je eigen apparaat gebeurt, verandert die rekensom fundamenteel.

Bedrijven zijn daar al op aangeslagen, zoals blijkt uit de overstap van diverse organisaties van cloud-LLMs naar kleine lokale modellen. Voor individuele gebruikers volgt waarschijnlijk dezelfde logica. En nu de prijslogica van AI ook verschuift door agenten, wordt het steeds moeilijker uit te leggen waarom je blijvend betaalt voor capaciteit die je maar deels gebruikt. Kleine modellen zijn niet overal beter. Maar voor verrassend veel werk zijn ze al slimmer dan het oude prijsmodel.

Kleine AI-modellen kunnen al veel meer dan je denkt

Het idee dat alles een enorm model nodig heeft klopt niet meer

Het grootste deel van je AI-werk is gewoon routine

Waar de cloud nog wel duidelijk beter is

Je hardware is verder dan je gebruiksgedrag

De privacywinst wordt nog steeds onderschat

Bronnen en Referenties

Misschien vind je dit ook leuk:

Je AI-assistent schond zijn eigen privacybeleid 214 keer

287 bedrijven wisselden van LLM en bespaarden 75%

Je SaaS rekent nog per gebruiker. Het werk doet dat niet