OpenAI's Noam Brown: Benchmark-overzichten misleiden beleggers over modelcapaciteiten

Onderzoeker legt uit waarom traditionele evaluatiemethoden redeneermodellen fundamenteel verkeerd weergeven, januari 2026

Noam Brown, onderzoeker bij OpenAI, stelt in een recent essay dat de standaardmethode van de sector voor het evalueren van AI-modellen gevaarlijk misleidend is geworden naarmate de redeneercapaciteiten schalen met de rekenkracht tijdens de inferentie. Het probleem, zo legt Brown uit in een recente podcast, is dat benchmark-overzichten enkelvoudige scores tonen die de belangrijkste variabele maskeren: hoeveel rekenbudget een model verbruikt om die prestatie te bereiken.

Toen OpenAI zijn nieuwste model uitbracht, intern aangeduid als 5.5, ontstond er aanvankelijk scepsis door benchmarkvergelijkingen die slechts marginale verbeteringen lieten zien ten opzichte van de vorige 5.4-versie. "Het ging om slechts enkele procentpunten in sommige benchmarks," merkt Brown op. Maar die reactie duurde slechts enkele uren, totdat praktisch gebruik aanzienlijke capaciteitswinsten aan het licht bracht. De discrepantie kwam voort uit een meetprobleem dat volgens Brown de methodologie van de gehele sector heeft aangetast.

De verborgen variabele in modelprestaties

Het kernprobleem is dat benchmark-overzichten geen rekening houden met de rekenkracht tijdens de testfase (test-time compute), oftewel het inferentiebudget dat aan elk probleem wordt toegewezen. Model 5.5 bleek veel efficiënter in redeneren dan 5.4, waarbij het vergelijkbare prestaties leverde terwijl het aanzienlijk korter 'nadenkt'. "Zodra je corrigeert voor de denktijd, zie je dat 5.5 een substantiële sprong voorwaarts is ten opzichte van 5.4," legt Brown uit. Toch maken standaard benchmarks dit efficiëntievoordeel onzichtbaar voor beleggers en onderzoekers die prestatieoverzichten raadplegen.

De natuurlijke reactie, zo merkt Brown op, is om modellen simpelweg te laten nadenken totdat de prestaties stagneren. Maar die aanpak is onpraktisch geworden bij moderne redeneersystemen. "Wat we vandaag de dag zien bij moderne modellen is dat 5.5 en andere modellen, mits je ze goed structureert (scaffolding), wekenlang kunnen nadenken voordat de prestaties op sommige van deze benchmarks stabiliseren." Dit is een fundamentele verschuiving ten opzichte van het GPT-3-tijdperk, waarin extra inferentietijd slechts minimale winst opleverde na enkele seconden verwerking.

De door Brown voorgestelde oplossing behelst hetzij het afdwingen van expliciete budgetbeperkingen, hetzij het uitzetten van prestaties als functie van de rekenkracht tijdens de testfase. "Je moet ofwel een soort budget voor de benchmark hebben – of dat nu tokens, kosten of tijd zijn – of je zet de prestaties uit als functie van de hoeveelheid rekenkracht die in het model wordt gestoken," betoogt hij. Alleen dan is een zinvolle vergelijking tussen modellen mogelijk.

Veiligheidsevaluaties uit een ander tijdperk

Het meetprobleem reikt verder dan capaciteitsbeoordeling naar veiligheidsevaluaties, met potentieel ernstige gevolgen. Brown wijst erop dat het beleid voor verantwoorde schaling en de paraatheidskaders bij grote laboratoria grotendeels werden ontwikkeld voordat schaling tijdens de inferentiefase significant werd. Dit beleid evalueert of modellen gevaarlijke capaciteiten bezitten, maar houdt geen rekening met het feit dat de prestaties van moderne modellen afhankelijk zijn van het budget.

"Het probleem is dat we in een wereld leven waarin de capaciteit van het model een functie is van hoeveel geld je erin stopt," stelt Brown. "Kort gezegd: als je het een budget van $10.000 geeft, kan het veel meer dan met een budget van $10. Als je het een budget van $10 miljoen geeft, kan het nog meer." Huidige veiligheidskaders adresseren niet bij welk budgetniveau gevaarlijke capaciteiten moeten worden beoordeeld.

Het AI Safety Institute heeft aangetoond dat modellen zelfs bij budgetten van 100 miljoen tokens blijven verbeteren op cyberbeveiligingstaken, wat neerkomt op aanzienlijke rekenkosten en tijd. Brown suggereert dat evaluatieprotocollen de prestaties bij hoge budgetten zouden kunnen projecteren door de verbeteringscurves bij lagere budgetten te meten, hoewel hij erkent dat dit nog een open onderzoeksvraagstuk is.

Latente capaciteiten in reeds uitgebrachte modellen

De snelle releasecyclus van modellen zorgt voor een andere complicatie. OpenAI en concurrenten brengen nu elke twee tot drie maanden nieuwe modellen uit, maar om modellen echt tot het uiterste te drijven, kan het nodig zijn ze maandenlang te laten draaien. "Niemand weet eigenlijk wat het plafond van de capaciteiten van deze modellen is, omdat niemand ze lang genoeg heeft laten draaien om dat echt te kunnen vaststellen," observeert Brown.

Hij geeft een treffend voorbeeld uit het recente werk van OpenAI waarbij het Erdős unit distance-vermoeden werd weerlegd met behulp van een intern model. De prestatie vereiste een minimaal budget, maar latere experimenten onthulden dat het publiek beschikbare model 5.5 hetzelfde resultaat kon bereiken met de juiste structuur, zij het tegen geschatte kosten van $1.000 tot $100.000. "Het was voor iemand mogelijk geweest om het Erdős unit distance-vermoeden te weerleggen voordat wij dat deden, met behulp van een model voor algemeen gebruik," merkt Brown op. "Niemand had voldoende onderzocht wat er gebeurt als ik $100.000 aan rekenkracht in 5.5 stop."

Deze dynamiek creëert een coördinatieprobleem. Elke modelrelease verlaagt de kosten om specifieke resultaten te behalen met een factor 10 tot 100, wat prikkels creëert om te wachten in plaats van de huidige capaciteiten uitgebreid te verkennen. OpenAI zelf ontmoedigt interne onderzoekers actief om huidige modellen uitputtend te testen op open vraagstukken in de wiskunde en natuurkunde, en richt zich liever op het ontwikkelen van capabelere en kostenefficiëntere systemen van de volgende generatie.

Concrete voorbeelden uit de ontwikkeling van pokerbots

Brown gebruikt zijn persoonlijke evaluatiemethodologie om de capaciteitsgroei tussen modelreleases te illustreren. Als expert in speltheorie, die tijdens zijn promotieonderzoek AI voor poker ontwikkelde, test hij elk nieuw model door te proberen pokerbots te bouwen. Model 5.2 stelde hem in staat om een 'river solver' – de laatste fase van pokeranalyse – ongeveer vijf keer sneller te maken dan hij alleen kon. Hij typeert de prestaties echter als die van "een promovendus die tegen problemen aanloopt, maar waarbij ik tenminste wist wat die problemen waren en hoe ik ze kon oplossen."

Een hardnekkig probleem dat Brown "gaslighting" noemt, kwam naar voren bij eerdere modellen. In één geval vroeg hij een model hoeveel hij zou verliezen door te folden met $100 in de pot. Het model antwoordde $92, en toen Brown hem uitdaagde, hield het vol: "het is bijna 100, het is prima, het is geen probleem." Model 5.5 elimineerde dit gedrag grotendeels en kan met minimale begeleiding een complete river solver bouwen. Brown schat dat modellen binnen zes tot twaalf maanden met zero-shot prompting "een complete poker solver, in feite mijn hele proefschrift in één keer" zullen voltooien.

Wanneer hij probeert modellen tot echte onderzoeksbijdragen te dwingen door te vragen om algoritmen die superieur zijn aan gepubliceerd werk, merkt Brown dat huidige systemen nog tekortschieten. "Ik kan het veel tijd geven en het is nog steeds niet in staat om het te doen," meldt hij. Hij ziet wel incrementele verbeteringen tussen releases en verwacht uiteindelijk een kantelpunt waarop 'onderzoeksinstinct' daadwerkelijk nuttig wordt, vergelijkbaar met eerdere doorbraken in coderen en wiskunde.

Recursieve zelfverbetering zonder snelle 'takeoff'

Browns observaties vormen zijn perspectief op recursieve zelfverbetering en 'takeoff'-dynamiek. Hoewel hij erkent dat modellen "beslist versnellen wat onderzoekers in de laboratoria kunnen doen", ziet hij deze versnelling als ongelijk verdeeld over verschillende aspecten van onderzoek. "Momenteel zitten we op het punt dat als iets 100 keer sneller gaat, je wordt geblokkeerd door de zaken die niet 100 keer sneller gaan," legt hij uit.

Cruciaal is dat Brown geen scenario van een plotselinge intelligentie-explosie verwacht. "Er is de hypothese dat je in feite een intelligentie-explosie van de ene op de andere dag kunt krijgen, waarbij modellen een doorbraak ontdekken om zichzelf slimmer te maken, wat vervolgens leidt tot meer doorbraken die hen onmiddellijk nog slimmer maken," merkt hij op. Zijn scepsis komt direct voort uit de vereisten voor rekenkracht tijdens de testfase: "Als er zoveel rekenkracht nodig is om de volledige capaciteiten van het model te ontsluiten, dan betekent dit dat je wordt beperkt door tijd."

Deze tijdsbeperking vormt volgens Brown momenteel de bindende restrictie voor de laboratoria die voorop lopen. "De grootste bottleneck voor ons allemaal is tijd, en dat is waarom alle onderzoekers op dit moment zo intensief werken," stelt hij. "We zien allemaal wat de achterstand is. We zien wat de capaciteiten zijn en we worden simpelweg beperkt door hoe snel we dingen kunnen doen."

Multi-agent coördinatie als onontgonnen terrein

Gevraagd naar onontgonnen onderzoeksrichtingen, wijst Brown op grootschalige multi-agent coördinatie. Hoewel hij erkent dat er aanzienlijk werk bestaat, gelooft hij dat de huidige inspanningen slechts het oppervlak raken van wat mogelijk is. Zijn mentale model is gebaseerd op de ontwikkeling van de menselijke beschaving, die niet vooruitging door individuele intelligentiewinst, maar doordat miljarden mensen gedurende millennia gedeelde kennis verzamelden en daarop voortbouwden.

"Dat zien we vandaag de dag niet bij AI-modellen," observeert Brown. "Ze worden geboren in een wereld, bestaan gedurende een heel kort contextvenster en verdwijnen dan weer." Hoewel retrieval-systemen en scaffolding voor beperkte continuïteit zorgen, ziet Brown vroege producten zoals MultiOn en OpenClaw als indicatoren voor een potentiële toekomstige staat waarin gecoördineerde, samengestelde kennis op mondiale schaal wordt ingezet.

Het doorbreken van het benchmark-evenwicht

Brown typeert de voortdurende publicatie van traditionele benchmark-overzichten als een slecht evenwicht dat blijft bestaan, ondanks de brede erkenning van de ontoereikendheid ervan. "Iedereen weet eigenlijk dat het een slecht evenwicht is, maar niemand wil eruit breken," legt hij uit. Bedrijven publiceren de overzichten omdat beleggers en onderzoekers ze verwachten, wat een zichzelf versterkende cyclus creëert.

Zijn essay beoogt toestemming te geven aan de volgende modelrelease om de presentatie van top-line overzichten te verlaten ten gunste van prestatiecurves met expliciete rekenbudgetten op de x-as. Over routeringslagen en consensusbenaderingen die populair zijn bij applicatiebedrijven, hanteert Brown hetzelfde principe: dergelijke technieken kunnen de prestaties verbeteren, maar bij de evaluatie moet worden gecorrigeerd voor de rekenkracht tijdens de testfase om te bepalen of ze beter presteren dan simpelweg één model langer te laten nadenken tegen vergelijkbare kosten.

Brown blijft terecht sceptisch over de vraag of routeringsoptimalisaties voor specifieke benchmarks zich vertalen naar verbeteringen in de echte wereld, waarbij hij wijst op het aanhoudende risico van overfitting op evaluatiesets. Maar zijn fundamentele boodschap blijft dat zonder correctie voor de variabele rekenkracht, een zinvolle vergelijking onmogelijk is geworden in een tijdperk waarin de capaciteit van modellen continu schaalt met het inferentiebudget.

Verder lezen

Samsara onder de loep: Het AI-besturingssysteem voor de fysieke economie

2026-06-27

Coherent Deep Dive: De Indiumfosfide-gracht en de bottleneck in AI-optica

2026-06-27

Aravolta: GPU-afschrijving varieert 30-45% op basis van werkelijke workload, waardoor sectorgemiddelden voor kredietverstrekkers achterhaald zijn

2026-06-27

Trump-regering valt Iran aan uren na staakt-het-vuren, wat zorgt voor nieuwe volatiliteit op grondstoffenmarkten

2026-06-27

All In Podcast: Chinese open-source AI-modellen dagen Amerikaanse frontier labs uit terwijl geheugenknelpunt inflatie in de sector aanjaagt

2026-06-27

Disclaimer: Dit artikel is uitsluitend bedoeld voor informatieve doeleinden en vormt geen beleggingsadvies of een aanbeveling om effecten te kopen, verkopen of aan te houden. Onze analisten bieden gedetailleerde verslaggeving van bedrijfsevents maar kunnen fouten maken, doe altijd je eigen onderzoek. De geuite opvattingen en meningen weerspiegelen niet noodzakelijkerwijs die van DruckFin. We hebben niet alle hierin gebruikte informatie onafhankelijk geverifieerd en deze kan fouten of weglatingen bevatten. Raadpleeg een gekwalificeerde financieel adviseur voordat je een beleggingsbeslissing neemt. DruckFin en haar dochterondernemingen wijzen elke aansprakelijkheid af voor eventuele verliezen die voortvloeien uit het vertrouwen op deze inhoud. Zie voor de volledige voorwaarden onze Gebruiksvoorwaarden.