DruckFin

OpenAI-Forscher Noam Brown: Benchmark-Tabellen führen Investoren bei Modellfähigkeiten in die Irre

Research Scientist offenbart, warum traditionelle Evaluierungs-Frameworks Schlussfolgerungsmodelle grundlegend falsch darstellen, Januar 2026

Noam Brown, Research Scientist bei OpenAI, hat einen Essay veröffentlicht, in dem er argumentiert, dass der branchenübliche Ansatz zur Bewertung von KI-Modellen gefährlich irreführend geworden ist, da die Schlussfolgerungsfähigkeiten (Reasoning Capabilities) mit der Rechenleistung während der Inferenz skalieren. Das Problem, so erläutert Brown in einem aktuellen Podcast, bestehe darin, dass Benchmark-Tabellen lediglich Einzelwerte ausweisen, die die wichtigste Variable verschleiern: wie viel Rechenbudget ein Modell verbraucht, um diese Leistung zu erbringen.

Als OpenAI sein neuestes Modell, intern als 5.5 bezeichnet, veröffentlichte, kam aufgrund von Benchmark-Vergleichen, die nur marginale Verbesserungen gegenüber der Vorgängerversion 5.4 zeigten, zunächst Skepsis auf. „In einigen Benchmarks waren es nur wenige Prozentpunkte“, merkt Brown an. Doch diese Reaktion hielt nur wenige Stunden an, bevor die praktische Anwendung erhebliche Fähigkeitszuwächse offenbarte. Diese Diskrepanz rührte von einem Messproblem her, das laut Brown die Methodik der gesamten Branche infiziert hat.

Die versteckte Variable der Modellleistung

Das Kernproblem liegt darin, dass Benchmark-Tabellen die „Test-time Compute“ – das für jedes Problem zugewiesene Inferenzbudget – nicht kontrollieren. Modell 5.5 erwies sich als weitaus effizienter beim Schlussfolgern als 5.4 und lieferte eine vergleichbare Leistung, während es für die Denkprozesse wesentlich weniger Zeit benötigte. „Sobald man die Zeit für den Denkprozess kontrolliert, erkennt man, dass 5.5 einen deutlichen Sprung gegenüber 5.4 darstellt“, erklärt Brown. Dennoch machen Standard-Benchmarks diesen Effizienzvorteil für Investoren und Forscher, die Leistungstabellen betrachten, unsichtbar.

Die natürliche Reaktion, so Brown, bestünde darin, die Modelle einfach so lange denken zu lassen, bis die Leistung stagniert. Doch bei modernen Reasoning-Systemen ist dieser Ansatz unpraktikabel geworden. „Was wir heute bei modernen Modellen sehen, ist, dass 5.5 und andere Modelle – sofern man sie entsprechend gut strukturiert – wochenlang denken können, bevor die Leistung bei einigen dieser Benchmarks stagniert.“ Dies stellt eine fundamentale Abkehr von der GPT-3-Ära dar, in der zusätzliche Inferenzzeit nach wenigen Sekunden Verarbeitungsdauer nur noch minimale Gewinne brachte.

Browns Lösungsvorschlag beinhaltet entweder die Durchsetzung expliziter Budgetbeschränkungen oder die Darstellung der Leistung als Funktion der „Test-time Compute“. „Man muss entweder eine Art Budget für den Benchmark festlegen, sei es in Tokens, Kosten, Zeit oder was auch immer, oder man trägt die Leistung als Funktion der Rechenleistung auf, die das Modell für den Test aufwendet“, argumentiert er. Nur dann werde ein aussagekräftiger Vergleich zwischen Modellen möglich.

Sicherheits-Frameworks für eine andere Ära

Das Messproblem erstreckt sich über die Fähigkeitsbewertung hinaus auch auf Sicherheitsüberprüfungen, was potenziell schwerwiegende Folgen hat. Brown weist darauf hin, dass die Richtlinien für verantwortungsvolles Skalieren und die Vorsorge-Frameworks großer Labore weitgehend entwickelt wurden, bevor die Skalierung der Inferenzzeit signifikant wurde. Diese Richtlinien bewerten zwar, ob Modelle über gefährliche Fähigkeiten verfügen, berücksichtigen jedoch nicht den budgetabhängigen Charakter der modernen Modellleistung.

„Das Problem ist, dass wir in einer Welt leben, in der die Fähigkeit des Modells eine Funktion des Geldes ist, das man hineinsteckt“, stellt Brown fest. „Grundsätzlich gilt: Wenn man ihm ein Budget von 10.000 $ gibt, kann es weit mehr leisten als mit einem Budget von 10 $. Gibt man ihm 10 Millionen $, kann es noch mehr.“ Aktuelle Sicherheits-Frameworks adressieren nicht, bei welchem Budgetniveau gefährliche Fähigkeiten bewertet werden sollten.

Das AI Safety Institute hat nachgewiesen, dass Modelle ihre Leistung bei Cybersicherheitsaufgaben selbst bei Budgets von 100 Millionen Tokens weiter verbessern, was mit erheblichen Rechenkosten und Zeitaufwand verbunden ist. Brown schlägt vor, dass Evaluierungsprotokolle die Leistung bei hohen Budgets durch Extrapolation der Verbesserungskurven bei niedrigeren Budgets prognostizieren könnten, räumt jedoch ein, dass dies ein offenes Forschungsproblem bleibt.

Latente Fähigkeiten in bereits veröffentlichten Modellen

Der schnelle Release-Zyklus der Modelle schafft ein weiteres Problem. OpenAI und seine Wettbewerber veröffentlichen mittlerweile alle zwei bis drei Monate neue Modelle, doch um diese wirklich an ihre Grenzen zu bringen, müsste man sie monatelang laufen lassen. „Niemand weiß tatsächlich, wo die Leistungsobergrenze dieser Modelle liegt, weil niemand sie lange genug betrieben hat, um es wirklich sagen zu können“, beobachtet Brown.

Er führt ein eindrucksvolles Beispiel aus der jüngsten Arbeit von OpenAI an, bei der die Erdős-Einheitsdistanz-Vermutung mithilfe eines internen Modells widerlegt wurde. Die Leistung erforderte nur ein minimales Budget, doch spätere Experimente zeigten, dass das öffentlich verfügbare Modell 5.5 durch entsprechendes „Scaffolding“ dasselbe Ergebnis hätte erzielen können – wenn auch zu geschätzten Kosten zwischen 1.000 $ und 100.000 $. „Es wäre für jemanden möglich gewesen, die Erdős-Einheitsdistanz-Vermutung vor uns zu widerlegen, indem man ein Allzweckmodell verwendet“, merkt Brown an. „Niemand hatte ausreichend erforscht, was passiert, wenn ich 100.000 $ an Rechenleistung in 5.5 investiere.“

Diese Dynamik führt zu einem Koordinationsproblem. Jedes neue Modell senkt die Kosten für das Erreichen spezifischer Ergebnisse um den Faktor 10 bis 100, was Anreize schafft, eher abzuwarten, anstatt die aktuellen Fähigkeiten umfassend zu erforschen. OpenAI selbst rät internen Forschern aktiv davon ab, aktuelle Modelle erschöpfend an offenen Problemen in Mathematik und Physik zu testen, und konzentriert die Bemühungen stattdessen auf die Entwicklung leistungsfähigerer und kosteneffizienterer Systeme der nächsten Generation.

Konkrete Beispiele aus der Entwicklung von Poker-Bots

Brown nutzt seine persönliche Evaluierungsmethodik, um den Fähigkeitsfortschritt über Modellversionen hinweg zu veranschaulichen. Als Experte für Spieltheorie, der während seiner Promotion eine KI für Poker entwickelte, testet er jedes neue Modell, indem er versucht, Poker-Bots zu bauen. Modell 5.2 ermöglichte es ihm, einen „River Solver“ – die letzte Stufe der Poker-Analyse – etwa fünfmal schneller zu erstellen, als er es allein gekonnt hätte. Er beschreibt die Leistung jedoch als die eines „Doktoranden, der auf Probleme stößt, bei dem ich aber zumindest wüsste, was die Probleme sind und wie man sie behebt.“

Ein hartnäckiges Problem, das Brown als „Gaslighting“ bezeichnet, trat bei früheren Modellen auf. In einem Fall fragte er ein Modell, wie viel er bei einem Fold verlieren würde, wenn 100 $ im Pot wären. Das Modell antwortete mit 92 $, und als er es darauf ansprach, beharrte es darauf: „Es sind fast 100, das ist in Ordnung, keine große Sache.“ Modell 5.5 hat dieses Verhalten weitgehend eliminiert und kann mit minimaler Anleitung einen vollständigen River Solver bauen. Brown schätzt, dass Modelle innerhalb von sechs bis zwölf Monaten in der Lage sein werden, „einen kompletten Poker-Solver, im Grunde meine gesamte Doktorarbeit in einem Durchgang“ per Zero-Shot-Prompting zu erstellen.

Beim Versuch, die Modelle zu echten Forschungsbeiträgen zu bewegen, indem er Algorithmen anfordert, die über veröffentlichte Arbeiten hinausgehen, stellt Brown fest, dass aktuelle Systeme immer noch nicht ausreichen. „Ich kann ihnen viel Zeit geben, und sie sind immer noch nicht in der Lage, es zu tun“, berichtet er. Er stellt jedoch inkrementelle Verbesserungen über die Versionen hinweg fest und erwartet einen Wendepunkt, an dem die „Forschungs-Intuition“ der KI tatsächlich nützlich wird, ähnlich wie bei früheren Durchbrüchen in Programmierung und Mathematik.

Rekursive Selbstverbesserung ohne „Fast Takeoff“

Browns Beobachtungen prägen seine Sicht auf rekursive Selbstverbesserung und „Takeoff“-Dynamiken. Während er anerkennt, dass die Modelle „definitiv beschleunigen, was Forscher in den Laboren tun können“, sieht er diese Beschleunigung als ungleichmäßig über verschiedene Forschungsaspekte verteilt. „Derzeit sind wir an einem Punkt, an dem man, wenn etwas 100-mal schneller geht, durch die Dinge ausgebremst wird, die nicht 100-mal schneller gehen“, erklärt er.

Entscheidend ist, dass Brown kein Szenario einer plötzlichen Intelligenzexplosion über Nacht erwartet. „Es gibt diese Hypothese, dass man im Grunde eine Intelligenzexplosion über Nacht haben könnte, bei der die Modelle irgendeinen Durchbruch erzielen, um sich selbst intelligenter zu machen, was dann zu weiteren Durchbrüchen führt, die sie sofort noch intelligenter machen“, merkt er an. Seine Skepsis rührt direkt von den Anforderungen an die „Test-time Compute“ her: „Wenn es so viel Rechenzeit erfordert, die vollen Fähigkeiten des Modells freizuschalten, dann bedeutet das, dass man durch die Zeit ausgebremst wird.“

Dieser Zeit-Flaschenhals stellt nach Browns Einschätzung derzeit die bindende Beschränkung für die führenden Labore dar. „Der größte Engpass für uns alle ist Zeit, und deshalb arbeiten alle Forscher gerade so intensiv“, sagt er. „Wir alle sehen, was der Überhang ist. Wir sehen, was die Fähigkeiten sind, und wir werden einfach dadurch gebremst, wie schnell wir Dinge tun können.“

Multi-Agenten-Koordination als unerforschtes Terrain

Auf die Frage nach wenig erforschten Forschungsrichtungen verweist Brown auf die groß angelegte Multi-Agenten-Koordination. Obwohl er erhebliche bestehende Arbeiten anerkennt, glaubt er, dass die aktuellen Bemühungen nur an der Oberfläche dessen kratzen, was möglich ist. Sein mentales Modell stützt sich auf die Entwicklung der menschlichen Zivilisation, die nicht durch individuelle Intelligenzgewinne voranschritt, sondern dadurch, dass Milliarden von Menschen über Jahrtausende hinweg Wissen ansammelten und darauf aufbauten.

„Das sehen wir bei heutigen KI-Modellen nicht“, beobachtet Brown. „Sie werden in eine Welt hineingeboren, existieren für ein sehr kurzes Kontextfenster und verschwinden dann einfach.“ Während Retrieval-Systeme und Scaffolding eine begrenzte Kontinuität bieten, sieht Brown frühe Produkte wie MultiOn und OpenClaw als Indikatoren für einen potenziellen zukünftigen Zustand, der eine koordinierte Wissensakkumulation auf globaler Ebene beinhaltet.

Das Gleichgewicht der Benchmark-Tabellen durchbrechen

Brown bezeichnet die fortgesetzte Veröffentlichung traditioneller Benchmark-Tabellen als ein schlechtes Gleichgewicht, das trotz der weit verbreiteten Erkenntnis seiner Unzulänglichkeit fortbesteht. „Jeder weiß irgendwie, dass es ein schlechtes Gleichgewicht ist, aber niemand will ausbrechen“, erklärt er. Unternehmen veröffentlichen die Tabellen, weil Investoren und Forscher sie erwarten, was einen sich selbst verstärkenden Kreislauf erzeugt.

Sein Essay zielt darauf ab, die Erlaubnis für den nächsten Modell-Release zu erteilen, die Präsentation von Top-Line-Tabellen zugunsten von Leistungskurven mit expliziten Rechenbudgets auf der x-Achse aufzugeben. Auf Routing-Layer und Konsens-Ansätze, die bei Anwendungsunternehmen beliebt sind, wendet Brown dasselbe Prinzip an: Solche Techniken mögen die Leistung verbessern, aber die Evaluierung muss die „Test-time Compute“ kontrollieren, um festzustellen, ob sie besser abschneiden, als einem einzelnen Modell einfach zu erlauben, bei gleichen Kosten länger zu denken.

Brown bleibt angemessen skeptisch, ob Routing-Optimierungen für spezifische Benchmarks auf reale Verbesserungen übertragbar sind, und weist auf das ständige Risiko eines Overfittings auf Evaluierungssuiten hin. Doch seine grundlegende Botschaft bleibt: Ohne die Kontrolle der Rechen-Variablen ist ein sinnvoller Vergleich in einer Ära, in der die Modellfähigkeit kontinuierlich mit dem Inferenzbudget skaliert, unmöglich geworden.

Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken und stellt keine Anlageberatung oder eine Empfehlung zum Kauf, Verkauf oder Halten von Wertpapieren dar. Unsere Analysten bieten eine detaillierte Abdeckung von Unternehmensereignissen, können jedoch Fehler machen; führen Sie immer Ihre eigene Due-Diligence-Prüfung durch. Die geäußerten Ansichten und Meinungen spiegeln nicht unbedingt die von DruckFin wider. Wir haben nicht alle hier verwendeten Informationen unabhängig verifiziert, und sie können Fehler oder Auslassungen enthalten. Konsultieren Sie einen qualifizierten Finanzberater, bevor Sie eine Anlageentscheidung treffen. DruckFin und seine verbundenen Unternehmen lehnen jede Haftung für Verluste ab, die durch das Vertrauen auf diese Inhalte entstehen. Die vollständigen Bedingungen finden Sie in unseren Nutzungsbedingungen.