AI Trends

'De illusie van denken': Apple's kritische blik op AI-Reasoning modellen en wat dit betekent voor jouw bedrijf

Remy Gieling
Remy Gieling
June 9, 2025
6
min read
'De illusie van denken': Apple's kritische blik op AI-Reasoning modellen en wat dit betekent voor jouw bedrijf
Apple's kritische studie toont noodzaak tot innovatie bij reasoning-modellen; technologie blijft waardevol voor veel bedrijfstaken.

Silicon Valley staat in rep en roer. De komst van geavanceerde 'reasoning modellen' - AI-systemen die schijnbaar kunnen redeneren zoals mensen - wordt gevierd als de volgende grote doorbraak in kunstmatige intelligentie. OpenAI's o3, DeepSeek's R1 en Claude's thinking-modus beloven complexe zakelijke vraagstukken op te lossen, van strategische planning tot financiële analyses.

Tech-leiders bij o.a. Microsoft en Anthropic spreken over een revolutie die 80% van het kenniswerk zal transformeren. Maar een nieuwe studie van Apple, getiteld "The Illusion of Thinking", werpt een kritische blik op deze beloftes en onthult fundamentele beperkingen die ondernemers en beslissers moeten kennen voordat ze hun organisatie op deze technologie bouwen.

Van digitale papegaai naar denkende machine?

Om de impact van deze studie te begrijpen, moeten we eerst de evolutie van AI-taalmodellen schetsen. Toen ChatGPT 2,5 jaar geleden werd gelanceerd, revolutioneerde het de manier waarop we met computers communiceren. Deze traditionele taalmodellen functioneren echter als geavanceerde statistische systemen - "digitale papegaaien" die patronen herkennen en reproduceren zonder werkelijk begrip van de inhoud. Ze kunnen vloeiend teksten lezen en schrijven, maar missen het fundamentele begrip van wat ze produceren.

De nieuwe generatie reasoning modellen claimt dit paradigma te doorbreken. In plaats van direct te antwoorden, doorlopen ze eerst een uitgebreid 'chain of thought' proces. Ze analyseren de vraag achter de vraag, verzamelen relevante informatie, en bouwen stapsgewijs een beredeneerde oplossing op.

Met gerapporteerde IQ-scores tot wel 130 punten op complexe redeneertests en indrukwekkende prestaties op wiskundige olympiades, leken deze systemen klaar om een substantieel deel van het analytische werk in organisaties over te nemen.

Apple's ontnuchterende experiment

Het onderzoeksteam van Apple, opvallend genoeg geleid door de stagiair Parshin Shojaee, besloot deze grootse claims op een nieuwe manier te testen. Hun aanpak was even simpel als doeltreffend: in plaats van te vertrouwen op bestaande benchmarks die mogelijk vervuild zijn door trainingsdata, ontwierpen ze gecontroleerde experimenten met klassieke puzzelspellen.

Ze gebruikten vier puzzels - Tower of Hanoi, Checkers Jumping, River Crossing en Blocks World - waarbij de complexiteit nauwkeurig kon worden opgevoerd door systematisch tussenstappen toe te voegen. Deze puzzels vereisen planning, het bijhouden van meerdere toestanden tegelijk, en het respecteren van spelregels. Bovendien hebben ze een bijkomend voordeel: ze kunnen stapsgewijs moeilijker worden gemaakt door bijvoorbeeld de toren van Hanoi niet in 3 stappen van links naar rechts te brengen, maar bijvoorbeeld vervolgens in 4, 5, 6, stappen en meer.

Bron: Onderzoek Apple.

De resultaten waren als volgt:

Bij simpele taken (weinig tussenstappen) presteerden traditionele taalmodellen niet alleen adequaat, ze waren zelfs efficiënter dan hun 'denkende' tegenhangers. De reasoning modellen verspilden rekenkracht aan overthinking - ze bleven zoeken naar complexiteit die er niet was.

Bij middelmatige complexiteit toonden reasoning modellen eindelijk hun meerwaarde. Ze konden beter omgaan met de toegenomen aantal variabelen en afhankelijkheden, wat resulteerde in hogere succespercentages.

Bij hoge complexiteit gebeurde het onverwachte: beide typen modellen faalden volledig. Hun prestaties zakten abrupt naar nul. Het meest verontrustende was dat deze ineenstorting gebeurde ruim voordat de systemen tegen geheugenbeperkingen aanliepen. Ze hadden nog voldoende capaciteit, maar konden simpelweg niet meer coherent redeneren. Sterker nog, de modellen leken te 'weten' dat ze faalden en reduceerden zelf hun denkinspanning - een vorm van opgeven.

De onderliggende problematiek

Wat Apple's onderzoek blootlegt, is een fundamenteel probleem in hoe deze modellen 'denken'. Zelfs wanneer onderzoekers het exacte algoritme voor het oplossen van een puzzel aan de modellen gaven, verbeterde hun prestatie niet noemenswaardig. Dit suggereert dat het probleem niet ligt in het vinden van een oplossing, maar in het consistent uitvoeren van logische stappen over langere sequenties.

De nuance: waarom Apple's kritiek slechts deel van het verhaal vertelt

Hoewel Apple's onderzoek belangrijke beperkingen blootlegt, moeten we voorzichtig zijn met het trekken van te brede conclusies. De studie toont inderdaad aan dat current reasoning modellen nog niet volledig zijn uitontwikkeld en dat er substantieel meer onderzoek nodig is om ze werkelijk generalistisch inzetbaar te maken op de beloofde weg naar Artificial General Intelligence (AGI). Maar - en dit is cruciaal - het onderzoek bewijst geenszins dat deze doelen technisch onhaalbaar zijn.

Sterker nog, recente doorbraken wijzen in de tegenovergestelde richting. Neem bijvoorbeeld DeepMind's AlphaEvolve, een algoritme dat erin slaagde om zonder menselijke tussenkomst zowel de hardware als software van Google's tensor processing units te optimaliseren. Dit systeem verbeterde zichzelf iteratief - precies het soort zelfversterkende innovatie dat de weg naar AGI zou kunnen plaveien. Als AI-systemen in staat zijn om hun eigen infrastructuur te verbeteren, is het niet ondenkbaar dat ze ook hun reasoning-capaciteiten kunnen uitbreiden voorbij de huidige beperkingen.

Bovendien moeten we bedenken dat reasoning modellen pas ongeveer 12 maanden breed beschikbaar zijn voor gebruikers. In technologische termen is dit nog de kinderschoenen-fase. De snelheid waarmee deze modellen zijn geëvolueerd - van simpele chatbots naar systemen die complexe wetenschappelijke papers kunnen analyseren - suggereert dat we nog maar aan het begin staan van wat mogelijk is. Met nieuwe trainingsmethoden, verbeterde architecturen en exponentieel groeiende rekenkracht is het voorbarig om definitieve grenzen te stellen aan wat deze technologie kan bereiken.

Misschien nog belangrijker voor het bedrijfsleven: Apple's puzzeltesten zijn eigenlijk niet representatief voor het werk dat AI in organisaties moet verrichten. Het onderzoek focust op zeer specifieke wiskundige spelletjes met rigide regels en lange sequenties van afhankelijke stappen. Maar laten we eerlijk zijn - wanneer moet een marketingmanager voor het laatst een Tower of Hanoi-puzzel oplossen om een campagnestrategie te bepalen?

Welke expertise heeft een bedrijf nodig?

De realiteit is dat 95% van het kenniswerk in bedrijven draait om fundamenteel andere uitdagingen: het verwerken en analyseren van grote hoeveelheden ongestructureerde informatie, het identificeren van patronen en trends in complexe datasets, het vinden van dwarsverbanden tussen verschillende informatiebronnen, en het destilleren van actionable insights uit een zee van data. En precies in deze taken excelleren de huidige reasoning modellen.

Een CFO die quarterly reports moet analyseren, een HR-manager die recruitment-patronen moet identificeren, of een strategisch adviseur die markttrends moet interpreteren - zij hebben geen AI nodig die abstracte puzzels kan oplossen. Ze hebben systemen nodig die duizenden documenten kunnen doorploegen, relevante informatie kunnen extraheren, en coherente analyses kunnen presenteren. En dat is precies waar deze modellen, ondanks hun beperkingen bij puzzeltaken, uitstekend in zijn.

Apple's onderzoek test dus eigenlijk appels terwijl de markt om peren vraagt. Het feit dat reasoning modellen falen bij kunstmatige puzzels met extreme sequentiële complexiteit zegt weinig over hun vermogen om de meer holistische, informatierijke taken uit te voeren waar bedrijven daadwerkelijk waarde uit halen. Het is alsof je een Formule 1-auto afkeurt omdat hij slecht presteert op een mountainbike-parcours - technisch correct, maar largely irrelevant voor de intended use case.

Apple's strategische timing

De timing van Apple's publicatie roept vragen op. Als relatieve achterblijver in de generatieve AI-race heeft Apple mogelijk strategische motieven om de verwachtingen te temperen. Tegelijkertijd is hun wetenschappelijke punt valide en belangrijk. Het onderzoek, uitgevoerd door een divers team onder leiding van een stagiair, suggereert dat Apple serieus investeert in het begrijpen van AI's fundamentele beperkingen - mogelijk als voorbereiding op eigen doorbraken.

De weg vooruit: realisme zonder defaitisme

De "illusie van denken" die Apple blootlegt is geen reden voor pessimisme, maar een oproep tot volwassen AI-adoptie. De technologie staat niet stil - met reinforcement learning, zelfverbeterende algoritmes zoals Google's AlphaEvolve, en nieuwe architecturen kunnen toekomstige modellen deze beperkingen mogelijk overwinnen.

Voor nu moeten organisaties een pragmatische koers varen:

  1. Experimenteer verantwoord: Start met pilots in low-risk omgevingen
  2. Meet en evalueer: Ontwikkel KPI's die echte businesswaarde meten, niet alleen technische prestaties
  3. Investeer in training: Zorg dat uw team AI effectief kan inzetten én kritisch kan evalueren
  4. Behoud flexibiliteit: Bouw systemen die kunnen meegroeien met verbeterende AI-capaciteiten

Conclusie: de kracht van genuanceerd denken

Apple's onderzoek herinnert ons eraan dat zelfs in het tijdperk van AI, kritisch denken onmisbaar blijft. De werkelijke revolutie ligt niet in het vervangen van menselijke intelligentie, maar in het slim combineren van menselijke creativiteit, ethisch bewustzijn en contextbegrip met de rekenkracht en patroonherkenning van machines.

Succesvolle organisaties zullen degene zijn die deze balans vinden - die AI omarmen waar het waarde toevoegt, maar menselijke wijsheid behouden waar complexiteit, creativiteit en ethiek domineren. De illusie van perfect AI-denken mag dan doorgeprikt zijn, de realiteit van AI als krachtige businesstool blijft overeind. Het is aan leiders om deze tool verstandig in te zetten.

Remy Gieling
Job van den Berg

Like the Article?

Share the AI experience with your friends