OpenAI Noam Brown:基準測試矩陣正誤導投資人評估模型能力
研究科學家揭示傳統評估框架為何根本性地扭曲了推理模型的表現(2026年1月)
OpenAI 研究科學家 Noam Brown 近期發表一篇文章指出,隨著推理運算規模的擴大,業界標準的 AI 模型評估方式已變得極具誤導性。Brown 在近期的一場播客中解釋,問題在於基準測試矩陣(benchmark grids)僅呈現單一數值分數,卻掩蓋了最關鍵的變數:模型在達到該績效時,究竟消耗了多少運算預算。
當 OpenAI 發布內部代號為 5.5 的最新模型時,由於基準測試顯示其相較於前代 5.4 版本僅有微幅提升,市場隨即出現質疑聲浪。Brown 指出:「在某些基準測試中,進步幅度僅有幾個百分點。」然而,這種反應僅持續了數小時,隨後實際應用便揭示了該模型在能力上的實質躍升。這種落差源於一個測量問題,而 Brown 認為該問題已影響了整個產業的評估方法論。
模型效能中的隱藏變數
核心問題在於,基準測試矩陣未能控制「測試時運算」(test-time compute),即分配給每個問題的推理預算。事實證明,Model 5.5 的推理效率遠高於 5.4,能在大幅減少思考時間的情況下提供相當的效能。Brown 解釋道:「一旦控制了思考時間變數,就能看出 5.5 相比 5.4 有顯著的飛躍。」然而,對於瀏覽效能表格的投資人和研究人員來說,標準基準測試讓這種效率優勢變得隱形。
Brown 指出,最直覺的反應是讓模型持續思考直到效能達到平原期,但這種方法在現代推理系統中已不切實際。他表示:「我們在現代模型中看到的是,如果架構設計得當,Model 5.5 及其他模型甚至可以思考數週,而不會在某些基準測試中出現效能停滯。」這與 GPT-3 時代形成了根本性的轉變,當時額外的推理時間在處理數秒後帶來的增益微乎其微。
Brown 提出的解決方案包括:強制執行明確的預算限制,或是將效能繪製為測試時運算的函數。他主張:「你必須設定某種基準測試預算,無論是代幣(tokens)、成本還是時間,否則就必須將效能繪製為模型投入測試時運算的函數。」唯有如此,模型之間的有意義比較才成為可能。
為舊時代打造的安全評估框架
測量問題不僅限於能力評估,更延伸至安全評估,且可能帶來嚴重後果。Brown 指出,主要實驗室的負責任擴展政策(responsible scaling policies)與準備度框架,大多是在推理時間擴展(inference-time scaling)變得顯著之前制定的。這些政策旨在評估模型是否具備危險能力,卻忽略了現代模型效能與預算高度相關的本質。
「問題在於,我們現在處於一個模型能力取決於投入資金多寡的世界。」Brown 表示,「基本上,如果你給它 10,000 美元的預算,它能做的事遠多於 10 美元預算下的表現。如果你給它 1,000 萬美元的預算,它能做的更多。」目前的安全性框架並未規範應在何種預算水準下評估危險能力。
AI 安全研究所(AI Safety Institute)已證明,即使在 1 億個 tokens 的預算下,模型在網路安全任務上的表現仍持續提升,這代表了巨大的運算支出與時間成本。Brown 建議,評估協定可以透過測量低預算下的改進斜率,來預測高預算下的效能,但他承認這仍是一個待解的研究課題。
已發布模型中的潛在能力
快速的模型發布週期帶來了另一個難題。OpenAI 與競爭對手現在每兩到三個月就會推出新模型,但要真正將模型推向極限,可能需要運行數月之久。Brown 觀察到:「沒有人真正知道這些模型的效能上限在哪裡,因為沒有人運行過足夠長的時間來驗證。」
他舉出一個引人注目的例子:OpenAI 近期利用內部模型推翻了 Erdős 單元距離猜想(Erdős unit distance conjecture)。這項成就僅花費了極少預算,但後續實驗顯示,公開的 Model 5.5 透過適當的架構設計(scaffolding)也能達到相同結果,預估成本約為 1,000 美元至 10 萬美元。Brown 指出:「在我們之前,任何人其實都有可能利用通用模型推翻 Erdős 單元距離猜想。只是沒人深入探索過,如果對 5.5 投入 10 萬美元的運算資源會發生什麼事。」
這種動態呈現了一個協調問題。每次模型發布都會使達成特定結果的成本降低 10 到 100 倍,這反而激勵了人們等待新模型,而非深入探索當前模型的能力。OpenAI 本身也積極勸阻內部研究人員在數學與物理的開放性問題上對當前模型進行窮盡式測試,而是傾向將精力集中於開發能力更強、成本更具效益的下一代系統。
撲克機器人開發的具體案例
Brown 以個人的評估方法論來說明模型隨版本更迭的能力進程。作為一名在博士期間開發撲克 AI 的博弈論專家,他透過嘗試建立撲克機器人來測試每個新模型。Model 5.2 讓他能夠以比獨自作業快約五倍的速度建立「河牌求解器」(river solver,撲克分析的最後階段)。然而,他形容該模型的表現就像「一名研究生,雖然會遇到問題,但我至少知道問題出在哪,也知道如何修復。」
早期模型中存在一個被 Brown 稱為「煤氣燈效應」(gaslighting)的頑固問題。有一次,他詢問模型在底池有 100 美元的情況下棄牌會損失多少,模型回答 92 美元,隨後當他提出質疑時,模型竟堅持「這接近 100 美元,沒關係,這沒什麼大不了的」。Model 5.5 在很大程度上消除了這種行為,並能在極少引導下建立完整的河牌求解器。Brown 預估,在未來 6 到 12 個月內,模型將能透過零樣本提示(zero-shot prompting)完成「整個撲克求解器,基本上就是我整個博士論文的內容」。
當嘗試透過要求模型提供優於已發表研究的演算法,以推動模型做出真正的研究貢獻時,Brown 發現目前的系統仍力有未逮。他報告稱:「我可以給它很多時間,但它仍然做不到。」不過他也注意到各版本間的漸進式改進,並預期最終會出現一個轉折點,屆時模型的研究品味將變得真正有用,就像過去在程式設計與數學領域取得的突破一樣。
無須「快速起飛」的遞迴自我改進
Brown 的觀察影響了他對遞迴自我改進與「起飛」(takeoff)動態的看法。雖然他承認模型「確實正在加速研究人員在實驗室內的工作」,但他認為這種加速在研究的不同層面並不均衡。他解釋:「目前我們處於這樣一個階段:如果某件事的速度提升了 100 倍,你就會被那些沒有提升 100 倍的事物所掣肘。」
關鍵在於,Brown 並不預期會出現一夜之間的智慧爆炸(intelligence explosion)。他指出:「有一種假設認為,你可能會經歷一夜之間的智慧爆炸,模型發現某種突破讓自己變得更聰明,進而引發更多突破,使自己變得更聰明。」他的懷疑直接源於測試時運算的需求:「如果需要如此多的測試時運算才能解鎖模型的全部能力,那就意味著你受限於時間。」
Brown 評估,時間瓶頸目前是前沿實驗室面臨的束縛性限制。「對我們所有人來說,最大的瓶頸就是時間,這也是為什麼研究人員現在工作得如此緊張。」他表示,「我們都看到了潛在的上限,看到了模型的能力,我們只是受限於完成工作的速度。」
多代理協調:未開發的邊疆
當被問及未被充分開發的研究方向時,Brown 指向了大規模多代理協調(multi-agent coordination)。儘管承認現有研究已相當豐富,但他認為目前的努力僅觸及了可能性的表面。他的心理模型借鑑了人類文明的發展,人類的進步並非源於個體智慧的提升,而是數十億人類在數千年間累積並建立在共享知識之上的結果。
「我們在當前的 AI 模型中還沒看到這一點。」Brown 觀察到,「它們出生在一個世界,存在於極短的上下文視窗(context window)中,然後就消失了。」雖然檢索系統與架構設計提供了一定程度的連續性,但 Brown 將 MultiOn 和 OpenClaw 等早期產品視為潛在未來狀態的指標,即涉及全球規模的協調性知識累積。
打破基準測試矩陣的均衡
Brown 將傳統基準測試矩陣的持續發布描述為一種「糟糕的均衡」(bad equilibrium),儘管人們普遍認識到其不足,這種現象依然存在。他解釋:「每個人都知道這是一種糟糕的均衡,但沒人想跳出來。」企業發布矩陣是因為投資人和研究人員有此期待,形成了一種自我強化的循環。
他的文章旨在為下一次模型發布提供授權,放棄頂層矩陣呈現,轉而採用以測試時運算預算為 X 軸的效能曲線。對於應用公司中流行的路由層(routing layers)與共識方法,Brown 應用了相同的原則:這些技術或許能提升效能,但評估必須控制測試時運算變數,以確認它們是否真的優於僅僅讓單一模型在等量成本下思考更長時間。
Brown 對於針對特定基準測試的路由優化是否能轉化為現實世界的改進保持適當的懷疑,並指出過度擬合(overfitting)評估套件的持續風險。但他傳達的核心訊息依然是:在一個模型能力隨著推理預算持續擴展的時代,若不控制運算變數,有意義的比較已變得不可能。