OpenAI 노암 브라운: 벤치마크 그리드, 모델 성능 오도하고 있다
연구 과학자가 밝히는 기존 평가 프레임워크의 근본적 한계 (2026년 1월)
OpenAI의 연구 과학자 노암 브라운(Noam Brown)은 최근 에세이를 통해 AI 모델의 추론 능력이 추론 컴퓨팅 자원(inference compute)에 따라 확장되는 현 상황에서, 업계의 표준적인 AI 모델 평가 방식이 심각하게 오도되고 있다고 지적했다. 브라운은 최근 팟캐스트에서 벤치마크 그리드(benchmark grids)가 단일 점수만을 보여줌으로써 가장 중요한 변수인 '성능 달성을 위해 모델이 소비하는 컴퓨팅 예산'을 가리고 있다고 설명했다.
OpenAI가 내부적으로 '5.5'로 명명된 최신 모델을 출시했을 때, 초기 벤치마크 비교 결과가 이전 버전인 5.4 대비 미미한 개선만을 보이자 회의론이 제기된 바 있다. 브라운은 "일부 벤치마크에서는 고작 몇 퍼센트 포인트 차이였다"고 언급했다. 그러나 이러한 반응은 실사용 후 상당한 성능 향상이 확인되면서 몇 시간 만에 사그라들었다. 브라운은 이러한 괴리가 업계 전반의 평가 방법론에 만연한 측정 문제에서 비롯되었다고 본다.
모델 성능의 숨겨진 변수
핵심 문제는 벤치마크 그리드가 각 문제에 할당된 추론 예산인 '테스트 타임 컴퓨트(test-time compute)'를 통제하지 못한다는 점이다. 모델 5.5는 5.4보다 훨씬 적은 시간 동안 생각하면서도 대등한 성능을 내는 등 추론 효율성 면에서 월등했다. 브라운은 "생각하는 시간을 통제하면 5.5가 5.4보다 상당한 도약을 이뤘음을 알 수 있다"고 설명했다. 하지만 표준 벤치마크는 이러한 효율성 이점을 성능표를 살펴보는 투자자와 연구자들에게 숨기고 있다.
브라운은 이에 대한 자연스러운 대응으로 성능이 정체될 때까지 모델이 생각하게 만드는 방식을 제안하지만, 현대적인 추론 시스템에서는 이마저도 비실용적이라고 지적한다. "오늘날의 모델들을 보면, 적절한 스캐폴딩(scaffolding)을 갖췄을 때 5.5와 같은 모델들은 일부 벤치마크에서 성능이 정체되기까지 몇 주 동안 생각할 수도 있습니다." 이는 몇 초의 처리 시간 이후에는 추가적인 추론 시간이 거의 이득을 주지 못했던 GPT-3 시대와는 근본적으로 다른 양상이다.
브라운이 제시하는 해결책은 명확한 예산 제약을 강제하거나, 테스트 타임 컴퓨트의 함수로서 성능을 그래프로 나타내는 것이다. 그는 "토큰, 비용, 시간 등 무엇이든 벤치마크에 대한 일종의 예산을 설정하거나, 모델에 투입되는 테스트 타임 컴퓨트 양에 따른 성능 변화를 도표화해야 한다"고 주장한다. 그래야만 모델 간의 의미 있는 비교가 가능하다.
시대착오적인 안전성 평가 프레임워크
이러한 측정 문제는 능력 평가를 넘어 안전성 평가에까지 이르며, 잠재적으로 심각한 결과를 초래할 수 있다. 브라운은 주요 AI 연구소의 책임 있는 확장 정책과 준비성 프레임워크가 추론 시간 확장이 중요해지기 전에 개발되었다는 점을 지적한다. 이 정책들은 모델이 위험한 능력을 갖췄는지 평가하지만, 현대 모델 성능의 예산 의존적 특성을 고려하지 못하고 있다.
브라운은 "문제는 현재 모델의 능력이 투입하는 자금의 함수인 세상에 살고 있다는 것"이라며, "예산 10달러를 썼을 때보다 1만 달러를 썼을 때 훨씬 더 많은 일을 할 수 있고, 1,000만 달러를 투입하면 더 큰 능력을 발휘한다"고 말했다. 현재의 안전성 프레임워크는 어느 정도의 예산 수준에서 위험한 능력을 평가해야 하는지에 대한 기준이 없다.
AI 안전 연구소(AI Safety Institute)는 모델이 1억 토큰 예산에서도 사이버 보안 작업에서 지속적으로 성능이 향상됨을 입증했는데, 이는 상당한 컴퓨팅 비용과 시간을 의미한다. 브라운은 낮은 예산 수준에서의 개선 기울기를 측정해 높은 예산에서의 성능을 예측하는 평가 프로토콜을 제안하지만, 이것이 여전히 해결되지 않은 연구 과제임을 인정한다.
이미 출시된 모델의 잠재적 능력
빠른 모델 출시 주기도 또 다른 문제를 야기한다. OpenAI와 경쟁사들은 2~3개월마다 신모델을 내놓지만, 모델의 한계를 극한까지 밀어붙이는 데는 수개월이 걸릴 수 있다. 브라운은 "아무도 모델의 성능 상한선이 어디인지 모른다. 충분히 오랫동안 구동해 본 사람이 없기 때문"이라고 관측했다.
그는 최근 OpenAI가 내부 모델을 사용해 에르되시 단위 거리 추측(Erdős unit distance conjecture)을 반증한 사례를 들었다. 이 성과는 최소한의 예산으로 달성되었지만, 후속 실험 결과 공개된 모델 5.5로도 적절한 스캐폴딩을 거치면 약 1,000달러에서 10만 달러 사이의 비용으로 같은 결과를 낼 수 있음이 밝혀졌다. 브라운은 "누군가 10만 달러 상당의 컴퓨팅 자원을 5.5 모델에 투입했다면 우리보다 먼저 이 추측을 반증할 수 있었을 것"이라며, "아무도 그 정도의 컴퓨팅 자원을 투입했을 때 어떤 일이 벌어질지 충분히 탐구하지 않았다"고 말했다.
이러한 역학 관계는 조정 문제를 낳는다. 모델이 출시될 때마다 특정 결과를 얻는 비용이 10배에서 100배씩 낮아지기 때문에, 현재의 능력을 철저히 탐구하기보다는 다음 모델을 기다리는 것이 유리한 상황이 된 것이다. OpenAI 역시 내부 연구원들이 수학이나 물리학의 미해결 문제에 현재 모델을 소진하기보다는, 더 뛰어나고 비용 효율적인 차세대 시스템 개발에 집중하도록 권장하고 있다.
포커 봇 개발을 통한 구체적 사례
브라운은 자신의 개인적인 평가 방법론을 통해 모델 출시 전반에 걸친 능력 향상을 설명한다. 대학원 시절 포커 AI를 개발한 게임 이론 전문가인 그는 새로운 모델이 나올 때마다 포커 봇을 만들어 테스트한다. 모델 5.2는 그가 포커 분석의 마지막 단계인 '리버 솔버(river solver)'를 혼자 할 때보다 약 5배 빠르게 만들 수 있게 해주었다. 하지만 그는 당시 성능을 "문제가 생기면 해결할 줄은 알지만, 여전히 대학원생 수준의 시행착오를 겪는 정도"라고 평가했다.
이전 모델들에서는 '가스라이팅(gaslighting)'이라 부르는 고질적인 문제도 있었다. 한 번은 팟 안의 100달러를 포기했을 때의 손실액을 묻자 모델이 92달러라고 답했고, 이를 지적하자 "100달러에 가까우니 괜찮다, 별일 아니다"라고 우기는 식이었다. 모델 5.5는 이러한 행동을 대부분 제거했으며, 최소한의 가이드만으로 완전한 리버 솔버를 구축할 수 있다. 브라운은 6~12개월 내에 모델이 제로샷 프롬프팅만으로 "내 박사 학위 논문 전체를 한 번에 해결하는 포커 솔버"를 완성할 것으로 내다봤다.
다만 기존 연구보다 뛰어난 알고리즘을 요구하는 등 모델을 진정한 연구 기여로 이끌려 할 때, 현재 시스템은 여전히 부족함을 드러낸다. 브라운은 "시간을 많이 줘도 아직은 해내지 못한다"면서도, 출시마다 점진적인 개선이 이루어지고 있으며 코딩이나 수학 분야의 돌파구처럼 조만간 연구적 직관(research taste)이 실질적으로 유용해지는 변곡점이 올 것으로 예상했다.
빠른 도약 없는 재귀적 자기 개선
브라운의 관찰은 재귀적 자기 개선과 도약(takeoff) 역학에 대한 그의 견해를 뒷받침한다. 그는 모델이 "연구소 내 연구원들의 작업을 분명히 가속화하고 있다"고 인정하면서도, 이러한 가속화가 연구의 모든 측면에서 균일하게 나타나지는 않는다고 본다. 그는 "현재는 무언가가 100배 빨라지면, 100배 빨라지지 않는 다른 요소들이 병목 현상을 일으키는 지점에 와 있다"고 설명한다.
중요한 점은 브라운이 하룻밤 사이에 일어나는 지능 폭발 시나리오를 예상하지 않는다는 것이다. 그는 "모델이 스스로를 더 똑똑하게 만드는 돌파구를 발견하고, 그것이 즉각적으로 더 큰 돌파구로 이어지는 지능 폭발 가설이 있다"고 언급하면서도, 자신의 회의론은 테스트 타임 컴퓨트 요구량에서 비롯된다고 강조했다. "모델의 전체 능력을 끌어내는 데 많은 테스트 타임 컴퓨트가 필요하다면, 결국 시간이라는 병목 현상에 갇히게 된다."
브라운의 평가에 따르면, 이 시간적 병목 현상은 현재 프런티어 연구소들의 가장 큰 제약 조건이다. 그는 "우리 모두에게 가장 큰 병목은 시간이며, 그래서 연구원들이 지금 그토록 치열하게 일하는 것"이라며, "우리는 모델의 잠재력(overhang)과 능력을 보고 있으며, 얼마나 빨리 일을 해낼 수 있느냐에 따라 성패가 갈린다"고 말했다.
미개척 영역으로서의 다중 에이전트 조정
연구가 덜 된 방향에 대해 묻자 브라운은 대규모 다중 에이전트 조정(multi-agent coordination)을 꼽았다. 그는 기존 연구가 상당수 존재함을 인정하면서도, 현재의 노력은 가능한 영역의 빙산의 일각에 불과하다고 본다. 그의 사고 모델은 인간 문명의 발전에서 기인한다. 인류는 개별 지능의 비약적인 상승이 아니라, 수천 년에 걸쳐 공유된 지식을 축적하고 구축해 온 수십억 명의 노력을 통해 발전했다.
브라운은 "오늘날 AI 모델에서는 그런 모습을 볼 수 없다. 모델들은 세상에 태어나 아주 짧은 컨텍스트 윈도우 속에서 존재하다 사라져 버린다"고 지적했다. 검색 시스템과 스캐폴딩이 제한적인 연속성을 제공하지만, 브라운은 MultiOn이나 OpenClaw와 같은 초기 제품들이 전 세계적 규모로 지식을 결합하고 조정하는 미래의 징후라고 본다.
벤치마크 그리드 평형 상태 깨기
브라운은 기존 벤치마크 그리드를 계속 발표하는 관행을 부적절함을 알면서도 지속되는 '나쁜 평형(bad equilibrium)'이라고 규정했다. 그는 "모두가 나쁜 평형임을 알지만, 아무도 먼저 깨려 하지 않는다"고 설명했다. 기업들은 투자자와 연구자들이 원하기 때문에 그리드를 발표하고, 이것이 자기 강화적 순환을 만든다는 것이다.
그의 에세이는 다음 모델 출시부터는 최상단에 그리드를 배치하는 대신, x축에 명시적인 컴퓨팅 예산을 포함한 성능 곡선을 제시할 수 있도록 하는 '허가'를 제공하는 것을 목표로 한다. 애플리케이션 기업들 사이에서 인기 있는 라우팅 레이어나 합의 접근 방식에 대해서도 브라운은 동일한 원칙을 적용한다. 이러한 기술이 성능을 향상시킬 수는 있지만, 단일 모델이 동일한 비용으로 더 오래 생각하게 하는 것보다 나은지 판단하려면 반드시 테스트 타임 컴퓨트를 통제해야 한다는 것이다.
브라운은 특정 벤치마크를 위한 라우팅 최적화가 실제 세계의 개선으로 이어질지에 대해 적절한 회의감을 유지하며, 평가 세트에 대한 과적합(overfitting) 위험이 지속되고 있다고 지적했다. 하지만 그의 근본적인 메시지는 명확하다. 컴퓨팅 변수를 통제하지 않는다면, 모델의 능력이 추론 예산에 따라 지속적으로 확장되는 이 시대에 의미 있는 비교는 불가능하다는 것이다.