아키텍처 논쟁: 트랜스포머 공동 개발자 루카스 카이저, "10배 성능 향상 입증된다면 차세대 아키텍처 수용할 것"
2026년 5월 5일 샌프란시스코에서 열린 Pathway 라이브 토론, 트랜스포머 개발자와 차세대 주자들의 격돌
Pathway가 주최한 라이브 아키텍처 토론에서 가장 인상 깊었던 순간은 도전자의 공세가 아니라, 현 챔피언의 항복 조건 제시였다. 트랜스포머(Transformer)의 공동 개발자이자 GPT-4, GPT-5, 그리고 o1/o3 추론 모델을 설계한 루카스 카이저(Lukasz Kaiser)는 "포스트 트랜스포머(Post-Transformer) 아키텍처가 더 나은 스케일링 곡선을 입증한다면, 현재 하드웨어에서 50배의 연산 비용이 들더라도 자신의 패배를 인정할 수밖에 없다"고 밝혔다. 그는 "단순히 50배 느리더라도 더 가파른 성장 곡선을 보여주는 모델이 있다면 당신들의 승리다. 나는 물러날 것이다. 하드웨어는 그 성능을 따라오게 되어 있다"고 말했다. 이는 AI 인프라 구축을 지켜보는 대부분의 투자자가 예상했던 것보다 훨씬 열린 태도다.
10배의 기준: 하드웨어는 더 이상 핑계가 될 수 없다
이날 토론의 핵심 쟁점 중 하나는 '하드웨어 복권(hardware lottery)' 논리, 즉 트랜스포머가 성공한 이유가 GPU 행렬 곱셈 연산이 그 구조와 우연히 완벽하게 맞아떨어졌기 때문이라는 주장이었다. 트랜스포머 공동 개발자이자 현재는 사카나 AI(Sakana AI)의 공동 창업자로서 포스트 트랜스포머 진영에 선 리온 존스(Llion Jones)는 "트랜스포머의 돌파구는 심각하게 오해받고 있다"고 단언했다. 그의 견해에 따르면, 어텐션 레이어와 잔차 연결(residual connections)을 재배치하며 차세대 모델을 찾는 연구자들은 시간을 낭비하고 있다. 진정한 돌파구는 하드웨어 병렬화였으며, 그러한 최적화의 기회는 다시 오지 않는다는 것이다.
카이저는 이에 대해 무게감 있는 역사적 사례를 들어 반박했다. 초기 TPU 세대는 트랜스포머가 아닌 RNN을 위해 설계되었다. 어텐션 모델이 처음 구동되었을 때, 지수 연산(exponent)이 하드웨어에 구현되어 있지 않아 소프트맥스(softmax)를 CPU로 넘겨야 했다. 카이저는 "당시 모델은 말도 안 되게 느렸다"며, "하드웨어 기업이 방향을 바꿀 정도로 충분히 우수함을 입증해야 했고, 8년이 지난 지금은 매우 빠르게 구동되고 있다"고 설명했다. 그의 요지는 충분히 뛰어난 아키텍처라면 스스로 하드웨어를 확보할 것이라는 점이다. 다만 그 기준은 2배가 아닌 10배다. 또한 그는 오늘날 연구자들의 계산 방식을 바꿀 실용적인 관찰을 덧붙였다. 이제 AI 에이전트가 CUDA 코드를 작성할 수 있다는 것이다. "GPU에서 고통스러울 정도로 느린 작업도 이제는 직접 작성할 필요가 없는 훌륭한 커널로 극복할 수 있다." 이는 트랜스포머를 구축하거나 투자하는 이들에게 그 진입 장벽(moat)이 벤치마크 수치가 시사하는 것보다 훨씬 빠르게 좁혀지고 있음을 의미한다.
BDH 아키텍처와 페이지랭크(PageRank) 비유
Pathway의 최고과학책임자(CSO)이자 '드래곤 해츨링(Dragon Hatchling)' 아키텍처의 개발자인 아드리안 코소프스키(Adrian Kosowski)는 이날 가장 개념적으로 야심 찬 주장을 펼쳤다. 그는 트랜스포머가 틀렸다는 것이 아니라, 트랜스포머를 포함한 현존하는 어떤 아키텍처도 지능의 '라이트모티프(leitmotif)', 즉 정보 검색을 위한 페이지랭크처럼 모든 지능적 행동을 통합하는 근본적인 수학적 과정을 발견하지 못했다고 주장했다. "90년대에는 정보 색인이라는 지능의 아주 작은 부분집합에 불과한 문제가 있었다. 그때 하나의 거대한 테마와 수학적 방정식, 그리고 구현 방식을 들고나온 기업이 있었다." 구글의 페이지랭크와 맵리듀스(MapReduce)는 단순히 알타비스타(AltaVista)보다 나은 검색 엔진을 만든 것이 아니라, 문제 자체를 재정의했다. 코소프스키는 지능 분야에서 아직 그런 순간이 오지 않았다고 강조했다.
Pathway에서 개발 중인 BDH 접근 방식은 고차원 공간에서의 잠재적 추론(latent reasoning), 즉 생각을 언어 토큰으로 외현화하지 않고 사고하는 능력에 중점을 둔다. "트랜스포머는 언어로 생각한다. 잠재적 사고를 하는 것이 아니라, 생각을 기억할 뿐 언어의 틀 안에서 사고한다." 이는 단순한 철학적 구분이 아니다. 추론 효율성과 추론(inference) 과정에서의 하드웨어 활용도라는 차세대 과제와 직결된다. 코소프스키는 "추론과 사고에 더 많은 시간이 할애되는 세상으로 나아가는 지금, 트랜스포머가 과연 사고 과정에서 하드웨어를 가장 효율적으로 사용하는 궁극의 아키텍처인지 묻는 것은 매우 정당한 질문"이라고 지적했다.
리퀴드 AI(Liquid AI)의 전략: 트랜스포머 vs 포스트 트랜스포머가 아닌 공존
리퀴드 AI의 공동 창업자이자 CTO인 마티아스 레흐너(Mathias Lechner)는 현장에서 가장 실용적이고 상업적으로 솔직한 목소리를 냈다. 리퀴드 AI는 어느 한쪽을 선택하지 않는다. 대신 주어진 배포 제약 조건에 가장 적합한 것을 구축한다. 레흐너는 GPT-3 수준의 언어 모델을 라즈베리 파이(Raspberry Pi)에서 초당 약 40토큰의 속도로 구동하는 사례를 들며, 이는 특정 아키텍처에 대한 맹신이 아니라 요구 사항에 따라 트랜스포머 구성 요소, SSM, 게이트 선형 어텐션(gated linear attention), 합성곱 레이어 등을 선택적으로 조합한 결과라고 설명했다. "딥시크(DeepSeek)가 새로운 어텐션 메커니즘을 내놓으면 기쁘고, 새로운 포스트 트랜스포머 모델이 나와도 기쁘다. 더 넓은 범위의 아키텍처를 활용할 수 있게 되기 때문이다."
레흐너는 또한 이날 가장 도발적인 장기 예측을 덧붙였다. 트랜스포머를 기반으로 구축된 AI 에이전트가 결국 트랜스포머의 대체자를 발견할 것이라는 점이다. "나는 그들이 스스로의 대체자를 찾을 것이라고 믿는다. 트랜스포머가 자신의 후계자를 찾아낼 것이라 확신한다." 담담한 어조였지만, 차세대 아키텍처 혁신이 인간의 의도적인 연구 프로그램이 아닌 현 패러다임의 창발적 결과물일 수 있다는 함의는 현장에서 충분히 주목받지 못했다.
지속적 학습(Continual Learning): 불편한 약점
이날 가장 날카로운 논쟁 중 하나는 지속적 학습에 관한 것이었다. 존스는 이를 트랜스포머 패러다임의 핵심적인 구조적 약점이라며 강한 불만을 드러냈다. "우리는 근본적으로 정적 가중치(static weights)를 갖도록 설계된 모델을 가져와서 '여기에 동적 가중치를 추가하려면 어떻게 해야 할까?'를 고민하고 있다. 애초부터 동적 가중치를 염두에 두고 설계된 것을 보고 싶다." 카이저는 지적인 정직함을 발휘해 트랜스포머의 문맥 내 학습(in-context learning) 메커니즘이 동적 가중치 업데이트와 유사한 기능을 수행한다는 점은 인정했다. 그러나 그는 "정말로 나를 괴롭히는 것은 '아마도(maybe)'라는 불확실성이다"라고 덧붙였다. 그가 지적했듯, 단순한 정보 검색과 구분되는 문맥 내 학습의 품질을 측정할 진지한 벤치마크는 존재하지 않는다. '건초 더미 속 바늘 찾기(needle-in-a-haystack)' 테스트는 검색 문제이지 학습 문제가 아니며, 업계는 아직 이 둘을 구분할 도구를 만들지 못했다.
퍼플렉서티(Perplexity), 모든 것을 평가하는 지표가 되어야
이번 토론에서 나온 가장 실천적인 통찰 중 하나는 카이저가 제시한 '홀드아웃 데이터셋(held-out dataset)에 대한 퍼플렉서티'를 업계 표준 벤치마크로 삼아야 한다는 주장이었다. 그는 초기 트랜스포머 연구 당시 BLEU 점수를 버리고 퍼플렉서티를 선택한 것이 옳은 결정이었으며, BLEU 점수가 포화 상태에 이른 뒤에도 퍼플렉서티는 유용하게 활용되었다고 설명했다. "오픈AI가 모델을 벤치마킹하는 방식도 내부 코드베이스에 대한 퍼플렉서티이며, 많은 연구소가 그렇게 하고 있다." 그는 나아가 비공개 홀드아웃 텍스트 및 코드셋을 유지하며 평가 수수료를 받고 아키텍처별 스케일링 곡선을 발표하는 소규모 기업의 아이디어를 제안했다. 존스 역시 즉각 동의하며 "사람들이 다시 퍼플렉서티를 높이는 방향으로 돌아갔으면 한다"고 말했다. 아키텍처의 진정한 발전과 벤치마크에 최적화된 결과물을 구분하려는 연구자와 투자자들에게 이 프레임워크는 매우 중요하다.
지역 최적점(Local Minimum) 문제와 급진적 변화의 필요성
존스는 트랜스포머의 성공 자체가 오히려 그 후계자의 발견을 가로막고 있다는 업계의 과소평가된 문제를 거듭 강조했다. "트랜스포머의 성공이 다음 단계로 나아가는 것을 막고 있다고 생각한다. 사람들은 이 아키텍처에 너무 집중하고 있고, 현재 너무나 성공적이라 우리는 지금 지역 최적점에 갇혀 있다." 그는 이 함정의 경제성에 대해 솔직하게 털어놓았다. 오픈AI와 같은 기업이 트랜스포머에 집중하는 것은 합리적이다. 그들의 해자가 그곳에 있기 때문이다. 하지만 그는 스타트업은 정반대로 움직여야 한다고 주장했다. "장기적인 도전에 자금을 투입하고, 다음 세대를 찾는 데 시간을 들이는 것이 더 합리적이다. 오픈AI도 한때는 그런 위치였다. 그들은 다른 이들보다 먼저 트랜스포머의 확장성을 발견했고, 큰 성공을 거뒀다."
이날 가장 추측을 불러일으킨 존스의 발언은 사카나 AI 팀이 연구 중인 일부 아키텍처는 원칙적으로 역전파(backpropagation)로 학습할 수 없을지도 모른다는 것이었다. 그는 더 이상의 세부 사항은 밝히지 않았지만, 이 발언은 최소한 한 곳의 유능한 연구소가 현재 패러다임의 주변부를 장식하는 대신 완전히 새로운 영역을 탐색하고 있음을 시사한다.
아무도 심각하게 여기지 않는 안전성 문제
카이저는 토론 막바지에 사고의 연쇄(chain-of-thought) 투명성이 해석 가능성을 보장한다는 통념을 뒤흔드는 안전성 문제를 제기했다. "토큰은 각각 몇 바이트에 불과하지만, 그 위의 활성화(activation)는 수천 개의 부동 소수점으로 이루어진 수십 개의 레이어다. 우리는 그 안에서 무슨 일이 일어나는지 전혀 알지 못한다." 그의 경고는 직접적이었다. 현재 사고의 연쇄가 모델의 근본적인 행동과 일치하는 것은 아키텍처의 보장이 아니라 사전 학습의 유인(incentives)에 따른 결과라는 것이다. "어느 날 같은 문장을 말하더라도 그 속의 생각은 완전히 다를 수 있으며, 우리는 그것을 알아차리지 못할 수도 있다." 존스는 이에 대해 역설적인 결론을 덧붙였다. 생물학적 신경 시스템의 작동 방식을 더 가깝게 모방하는 포스트 트랜스포머 아키텍처가 오히려 트랜스포머보다 더 해석 가능하고 안전할 수도 있다는 것이다.
현장 청중들은 박수 소리 측정(clapometer)을 통해 포스트 트랜스포머의 손을 들어주었지만, 그 격차는 근소했다. 이번 토론의 더 지속적인 교훈은 트랜스포머의 공동 설계자 중 한 명이 자신이 만든 아키텍처를 포기할 조건을 공개적으로 설정했다는 점이며, 그 조건은 현재의 벤치마킹 문화가 시사하는 것보다 훨씬 달성 가능한 수준이라는 것이다.