OpenAIのノーム・ブラウン氏:ベンチマーク指標はAIモデルの能力を誤認させる
研究サイエンティストが明かす、従来の評価フレームワークが推論モデルの本質を歪める理由(2026年1月)
OpenAIのリサーチサイエンティストであるノーム・ブラウン氏は、AIモデルの評価に関する業界の標準的なアプローチが、推論時の計算量(インファレンス・コンピュート)の増大に伴い、極めて誤解を招くものになっていると指摘するエッセイを発表した。ブラウン氏は最近のポッドキャストで、現在のベンチマーク指標が示す単一のスコアには、最も重要な変数である「その性能に到達するためにモデルが消費した計算予算」が隠されていると警鐘を鳴らしている。
OpenAIが内部的に「5.5」と呼ぶ最新モデルをリリースした際、ベンチマーク比較では前モデル「5.4」からわずかな向上しか見られず、当初は懐疑的な見方が広がった。「一部のベンチマークでは数パーセントの改善に過ぎなかった」とブラウン氏は振り返る。しかし、実際にモデルを動かしてみると、その評価は数時間で覆った。実利用において大幅な能力向上が確認されたためだ。この乖離は、ブラウン氏が「業界全体の評価手法に蔓延している」と考える測定上の問題に起因している。
モデル性能に隠された変数
核心的な問題は、ベンチマーク指標が「テスト時計算量(test-time compute)」、すなわち各問題に割り当てられる推論予算を制御できていない点にある。モデル「5.5」は「5.4」よりも推論効率が大幅に高く、より短い思考時間で同等の性能を発揮できる。「思考時間を制御すれば、5.5が5.4から大幅に飛躍していることは明らかだ」とブラウン氏は説明する。しかし、標準的なベンチマークでは、この効率性の優位性が投資家や研究者の目には見えないようになっている。
当然の反応として、性能が頭打ちになるまでモデルに考えさせるという手法が考えられるが、現代の推論システムでは現実的ではない。「現在のモデル、特に5.5のようなモデルは、適切に足場(スキャフォールディング)を構築すれば、ベンチマーク上の性能が頭打ちになるまで数週間考え続けることも可能だ」。これは、追加の推論時間が数秒で限界に達していたGPT-3時代からの根本的な変化である。
ブラウン氏が提案する解決策は、明確な予算制約を設けるか、テスト時計算量の関数として性能をプロットすることだ。「トークン数、コスト、時間など、ベンチマークに何らかの予算制約を設けるか、あるいは投入したテスト時計算量に対する性能変化をグラフ化すべきだ」と同氏は主張する。そうして初めて、モデル間の有意義な比較が可能になる。
時代遅れの安全性評価フレームワーク
この測定上の問題は能力評価にとどまらず、安全性評価にも及び、深刻な影響を及ぼす可能性がある。ブラウン氏は、主要なAI研究所の責任あるスケーリング政策や準備体制のフレームワークの多くが、推論時のスケーリングが重要になる前に策定されたものであると指摘する。これらの政策はモデルが危険な能力を有しているかを評価するが、現代のモデル性能が予算に依存するという性質を考慮に入れていない。
「現在の世界では、モデルの能力は投入した資金の関数となっている」とブラウン氏は述べる。「予算が10ドルの場合と1万ドルの場合では、できることが全く異なる。1,000万ドルの予算をかければ、さらに多くのことが可能になる」。現在の安全性フレームワークは、どの予算レベルで危険な能力を評価すべきかという点に対応できていない。
AI Safety Institute(AI安全研究所)は、サイバーセキュリティのタスクにおいて、モデルが1億トークンという莫大な計算予算を投じた後でも性能向上を続けることを実証した。ブラウン氏は、低予算時の改善率から高予算時の性能を予測する評価プロトコルを提案しているが、これがまだ未解決の研究課題であることも認めている。
既にリリースされたモデルに眠る潜在能力
モデルのリリースサイクルの速さも問題を複雑にしている。OpenAIや競合他社は2〜3カ月ごとに新モデルを投入しているが、モデルの限界を真に引き出すには数カ月単位の実行が必要になることもある。「誰もこれらのモデルの能力の天井を知らない。実際にそこまで長時間実行した者がいないからだ」とブラウン氏は指摘する。
同氏は、OpenAIが内部モデルを用いて「エルデシュの単位距離問題」を解いた例を挙げる。この成果は最小限の予算で達成されたが、その後の実験で、公開されているモデル「5.5」でも適切なスキャフォールディングを行えば、1,000ドルから10万ドル相当のコストで同じ結果に到達できることが判明した。「我々が解く前に、汎用モデルを使って誰かがこの問題を解くことは可能だったはずだ。10万ドル分の計算量を5.5に投入したらどうなるか、誰も十分に探求していなかっただけだ」とブラウン氏は語る。
この力学は調整の問題を提起している。モデルがリリースされるたびに特定の成果を出すコストは10分の1から100分の1に下がるため、現状の能力を徹底的に探求するよりも、待機するインセンティブが働く。OpenAI自身も、数学や物理学の未解決問題に対して現行モデルを徹底的にテストすることは推奨しておらず、より高性能で費用対効果の高い次世代システムの開発に注力するよう促している。
ポーカーボット開発に見る具体例
ブラウン氏は、自身の評価手法を用いてモデルの進化を説明する。ゲーム理論の専門家として大学院時代にポーカーAIを開発した同氏は、新しいモデルが出るたびにポーカーボットを構築してテストを行っている。モデル「5.2」では、ポーカー解析の最終段階である「リバーソルバー」を自身の5倍の速さで構築できた。しかし、その性能は「問題に直面するが、何が問題でどう修正すべきかは理解している大学院生」のようなものだったと評する。
初期のモデルには「ガスライティング(現実の歪曲)」とブラウン氏が呼ぶ問題があった。例えば、ポットに100ドルある状況でフォールドした場合の損失を尋ねると、モデルは「92ドル」と答えた後、間違いを指摘されると「100ドルに近いから問題ない」と強弁した。モデル「5.5」はこの挙動をほぼ排除し、最小限の指示で完全なリバーソルバーを構築できる。ブラウン氏は、今後6〜12カ月以内に、ゼロショットプロンプティングで「ポーカーソルバー全体、つまり私の博士論文の内容を一度に構築できる」ようになると予測する。
一方で、既存の論文を超えるアルゴリズムを求めるなど、真の研究貢献をモデルに期待しても、現行システムではまだ不十分だという。「いくら時間をかけても、まだそこには到達できない」と同氏は報告する。しかし、リリースごとに着実な改善は見られており、コーディングや数学の分野で起きたような、研究の「センス」が真に有用となる転換点がやがて訪れると見ている。
急激な離陸なき再帰的自己改善
ブラウン氏は、再帰的自己改善と「離陸(テイクオフ)」の力学についても見解を述べる。モデルが「研究者のラボ内での作業を間違いなく加速させている」と認める一方で、その加速は研究の各側面で不均一であると指摘する。「現在は、何かが100倍速くなっても、そうでない部分がボトルネックになる段階にある」
重要な点として、ブラウン氏は一夜にして知能が爆発的に向上するシナリオは想定していない。「モデルが自己改善のブレークスルーを発見し、それがさらなるブレークスルーを呼ぶという『知能爆発』の仮説があるが、私は懐疑的だ」と述べる。その理由は、テスト時計算量の必要性にある。「モデルの全能力を引き出すために膨大なテスト時計算量が必要ならば、結局は時間というボトルネックに縛られることになるからだ」
ブラウン氏の評価によれば、この「時間のボトルネック」こそが、現在フロンティアAI研究所にとっての制約条件となっている。「我々全員にとって最大のボトルネックは時間だ。だからこそ研究者はこれほど必死に働いている。オーバーハング(潜在能力)は目に見えており、能力も理解している。ただ、それを実行するスピードが足りないだけだ」
未踏のフロンティア:マルチエージェント協調
未開拓の研究領域について問われると、ブラウン氏は「大規模なマルチエージェント協調」を挙げる。既存の研究は多いものの、可能性の表面をなぞっているに過ぎないという。同氏のメンタルモデルは、個々の知能の向上ではなく、何十億人もの人間が何千年にもわたって知識を蓄積・共有してきた人類文明の発展に基づいている。
「現在のAIモデルにはそれが見られない。モデルは誕生しても短いコンテキストウィンドウの中で存在し、すぐに消えてしまう」とブラウン氏は指摘する。検索システムやスキャフォールディングによって限定的な継続性は確保されているが、同氏は「MultiOn」や「OpenClaw」のような初期の製品が、世界規模で知識が蓄積・複合化される未来の兆候であると見ている。
ベンチマーク指標の均衡を打破する
ブラウン氏は、従来のベンチマーク指標が公開され続けている現状を、その不備が広く認識されているにもかかわらず続く「悪い均衡」と表現する。「誰もが悪い均衡だと知っているが、誰もそこから抜け出したくないのだ」。企業が指標を公開するのは、投資家や研究者がそれを期待しているからであり、自己強化的なサイクルが生まれている。
同氏のエッセイの目的は、次回のモデルリリースにおいて、トップラインの指標表示を廃止し、計算予算を明示した性能曲線へと移行するための「許可」を与えることにある。アプリケーション企業の間で普及しているルーティング層や合意形成アプローチについても、ブラウン氏は同じ原則を適用する。それらの技術が性能を向上させる可能性はあるが、単一のモデルに同等のコストでより長く考えさせた場合と比較して優れているのか、テスト時計算量を制御して評価しなければならない。
ブラウン氏は、特定のベンチマークに向けたルーティング最適化が実世界の改善に直結するかについては慎重な姿勢を崩さない。評価スイートへの過学習のリスクは依然として残るからだ。しかし、同氏の根本的なメッセージは、「推論予算に応じてモデルの能力が連続的にスケーリングする時代において、計算量という変数を制御しなければ、有意義な比較は不可能である」という点に尽きる。