Cerebras CEO: "아무도 느린 AI를 원하지 않는다" — 200억 달러 규모 OpenAI 계약, AWS 아키텍처 전략, 그리고 이것이 거품이 아닌 이유
Bloomberg Tech 2026, 샌프란시스코 — 2026년 6월 4일
앤드류 펠드먼 Cerebras CEO가 사상 최대 규모의 반도체 기업공개(IPO)라고 평가한 상장 이후 2주 만에, 그는 샌프란시스코에서 열린 'Bloomberg Tech 2026'에 참석해 블룸버그의 톰 자일스와 대담을 나눴다. 이 자리에서 그는 회사의 사업적 논리와 하이퍼스케일러들과의 파트너십 아키텍처를 설명하고, AI 인프라 투자 과열 논란에 대한 자신의 명확한 견해를 밝혔다. 그의 답변은 대부분의 기업 실적 발표보다 훨씬 더 통찰력 있는 내용들로 채워졌다.
OpenAI와 AWS 계약은 예외가 아닌 청사진
이번 대담에서 가장 중요한 새로운 정보는 IPO를 앞둔 Cerebras의 사업적 모멘텀의 구조와 규모에 관한 것이었다. 펠드먼은 OpenAI와 200억 달러가 넘는 규모의 '테이크 오어 페이(take-or-pay, 물량 미달 시에도 대금 지불)' 계약을 체결했음을 확인했다. 이 계약은 AWS와 별도의 합의를 하기 약 45일 전에 체결되었다. 이 두 거래는 펠드먼이 다른 하이퍼스케일러들에게도 확장할 계획이라고 밝힌 사업 모델의 기반이 되었다. 다만 한 가지 예외는 분명히 했다. 그는 "우리는 현재 Nvidia를 제외한 다른 모든 하이퍼스케일러들과 함께, 문제의 일부는 타사의 부품을 사용하고 나머지 일부는 우리의 부품을 사용하는 방식으로 협업하는 과정을 진행 중"이라고 말했다. 거듭된 질문에 그는 "즉, 그들(Nvidia)을 제외한 모두"라고 확인했다.
AWS와의 계약은 아키텍처 측면에서 흥미로우며 투자자들이 면밀히 살펴볼 가치가 있다. 이는 Cerebras가 클라우드 인프라와 정면으로 경쟁하기보다 기존 인프라에 어떻게 스며들려 하는지를 보여주기 때문이다. 핵심은 추론 작업 부하를 두 개의 별도 컴퓨팅 문제로 분해하는 것이다. 첫 번째인 '프리필(prefill)'은 입력된 프롬프트를 처리하는 단계로 병렬화가 매우 용이하며, 하이퍼스케일러들의 기존 학습 최적화 실리콘이 이를 잘 처리한다. 반면 두 번째인 '디코드(decode)', 즉 실제 답변을 생성하는 단계는 엄격히 순차적이며, 바로 이 지점에서 Cerebras 칩이 성능 우위를 점한다. 펠드먼은 "우리는 학습 단계의 일부를 귀사의 기술로 처리하고, 디코드 단계는 우리의 대형 칩을 사용하여 처리할 수 있다"며, "그 결과 비범한 솔루션이 탄생하게 된다"고 설명했다. 투자자들에게 주는 시사점은 Cerebras가 하이퍼스케일러 인프라를 완전히 대체하려는 것이 아니라, 추론 파이프라인에서 가장 지연 시간에 민감하고 가치가 높은 단계에 스스로를 삽입하고 있다는 점이다.
속도가 곧 제품이다 — 그리고 시장 비유는 의도적으로 직설적이다
펠드먼은 속도에 대한 논거를 2009년 구글의 연구 논문을 인용해 뒷받침했다. 이 논문에 따르면 응답 지연 시간이 조금만 늘어나도 사용자가 이를 의식하지 못하더라도 사용자 참여도, 유지율, 세션 길이가 유의미하게 감소한다. 그는 이를 시장 규모 추정으로 직결시켰다. "느린 검색 시장이 얼마나 큰가? 다이얼업 인터넷 시장은 얼마나 큰가?" 그는 속도를 단순히 성능 사양이 아닌 제품 카테고리를 정의하는 핵심 특성으로 규정했다. Cerebras는 자사의 추론 속도가 경쟁사 대비 15배 이상 빠르다고 주장한다. Open Claw의 설계자인 피터 스타인버거는 Cerebras를 사용하는 것이 코딩 생산성 측면에서 "그에게 토르의 망치를 쥐어준 것과 같았다"고 평가했다.
대안보다 15배 이상 빠르다는 회사의 성능 주장은 여전히 사업적 제안의 핵심 기둥이며, OpenAI와 AWS의 채택은 이를 뒷받침하는 의미 있는 제3자 검증이 되었다. 다만 경쟁 아키텍처가 진화함에 따라 이러한 성능 우위가 지속 가능할지는 인터뷰에서 직접적으로 다뤄지지 않은 타당한 의문점이다.
250억 달러의 수주 잔고와 거품론에 대한 반박
AI 인프라 투자가 거품인지에 대한 질문에 펠드먼은 가장 직접적이고 경험적인 근거를 제시했다. Cerebras는 현재 AMD와 Nvidia를 포함한 어떤 공급업체도 충족할 수 없는 250억 달러 이상의 수주 잔고를 보유하고 있다. 그는 "구축하는 쪽이 수요를 따라가지 못하는 정도가 터무니없는 수준"이라고 말했다. 역사적 거품에 대한 그의 해석은 경청할 가치가 있다. 그는 1990년대 후반의 광케이블 구축이나 1870년대 철도 건설을 예로 들며, "역사적으로 거품은 '만들면 그들이 올 것이다'라는 막연한 기대가 특징이었다"고 지적했다. 이어 "현재 AI 시장의 특이점은 공급자가 수요를 훨씬 뒤쫓고 있다는 것"이라고 덧붙였다. 또한 "우리의 고객과 그들의 고객은 소프트웨어의 속도로 움직이고 있는데, 우리는 부동산 데이터 센터의 속도로 움직이고 있다"고 설명했다.
250억 달러라는 수주 잔고 수치가 정확하다면 이는 해당 섹터에 매우 중요한 데이터 포인트다. 다만 투자자들은 펠드먼이 해당 잔고의 구성이나 매출로 전환되는 시점(타임라인)을 구체적으로 밝히지 않았다는 점에 유의해야 한다. 데이터 센터 구축의 긴 주기를 고려할 때 이는 매우 중요한 요소다.
고객 집중도: 하나의 큰 고객, 그리고 더 큰 고객
펠드먼은 고객 집중도 위험에 대해서도 특유의 직설적인 화법으로 답했다. OpenAI 계약 이전, Cerebras는 2023년 말 UAE 기반의 AI 챔피언인 G42와 10억 달러 규모의 계약을 체결한 바 있다. 당시 자본 조달 과정에서 투자자들은 단일 고객 의존도를 우려했다. 이후 Cerebras는 OpenAI와 200억 달러가 넘는 계약을, 이어서 AWS와 계약을 체결했다. 펠드먼은 "예전에는 고객이 하나였는데, 지금도 하나다. 단지 20배 더 커졌을 뿐"이라고 말했다. 그는 이를 Nvidia의 고객 집중도와 비교하며 "Nvidia는 지난 분기에 약 680억 달러의 매출을 올렸는데, 4개 고객사가 그 절반을 차지했다. 우리가 활동하는 시장이 바로 그런 곳"이라고 덧붙였다. 이는 고객 집중도 위험을 없애는 것은 아니지만, 업계 내에서 이를 정상적인 현상으로 받아들이게 하는 논리다.
그는 또한 단일 대형 고객이 실제로는 무엇을 의미하는지에 대해 유용한 시각을 제시했다. G42는 UAE 생태계 전반의 대학, 석유 기업, 수백 개의 최종 사용자를 지원하는 클라우드 제공업체다. OpenAI의 컴퓨팅 수요 역시 궁극적으로는 수십억 명의 개별 최종 사용자를 반영한다. 따라서 표면적인 고객 수는 실제 서비스되는 최종 수요의 폭을 과소평가하고 있다는 것이다.
토큰 경제는 예상보다 빠르게 성숙하고 있다
토큰 제한, 가격 민감도, 기업의 AI 컴퓨팅 할당 문제에 대해 펠드먼은 코스트코(Costco)의 비유를 들어 효율적으로 설명했다. 초기 기업들의 AI 도입은 쇼핑 목록 없이 창고형 할인점의 모든 통로를 돌아다니는 것과 같았으며, 이는 낭비가 심하고 조정이 제대로 되지 않았다. 그는 "마이크로소프트가 어느 날 '토큰은 비싸다'는 사실을 깨달았다"며, 돌이켜보면 당연한 사실이라고 언급했다. "어떤 자원을 모두에게 무제한으로 사용하게 내버려 두는가? 처음부터 어리석은 짓이었다." 시장은 이제 비용을 정당화할 수 있는 작업에는 고성능 프론티어 모델을, 그 외에는 오픈소스 대안을 사용하는 식으로 차별화를 배우고 있다. 펠드먼은 이를 수요 파괴의 신호가 아닌, 건강하고 빠른 정상화 과정으로 보고 있다.
데이터 센터 병목 현상과 업계의 지역사회 관계 실패
펠드먼은 데이터 센터 확장을 위한 지역사회의 지지를 이끌어내는 데 AI 업계가 실패했다는 점을 이례적으로 솔직하게 인정했다. 제약은 실재한다. Cerebras의 클라우드 서비스도 데이터 센터 가용성에 따라 용량 제한을 받으며, 이는 모든 하이퍼스케일러가 겪는 문제다. 하지만 그는 정치적 저항의 상당 부분이 피할 수 있었던 자책골에서 비롯되었다고 보았다. "우리는 좋은 이웃이 될 수 있었다. 지역사회에 다가가 그들의 절차와 지방 정부를 통해 승인과 동의를 얻을 수 있었다." 그는 업계가 일자리 창출 수치나 세수 기여도, 그리고 미국의 데이터 센터가 캘리포니아의 아몬드 농가보다 물을 5~7배 적게 소비한다는 반직관적인 사실을 알리는 데 실패했다고 지적했다. 그는 "우리는 앞만 보고 달렸고, 데이터 센터를 세우는 지역사회에 대해 생각하지 않았다"며, "우리는 일을 망쳤다"고 단호하게 말했다.
Cerebras는 전력이 풍부하고 저렴한 지역인 텍사스 서부, 유타 시골 지역, 루이지애나 일부, 나이아가라, 그리고 캐나다 전역에 용량을 확보하는 방식으로 대응하고 있다. 논리는 간단하다. 인구 밀집 지역과의 근접성보다는 전력 가용성을 쫓고, 토큰은 광케이블을 통해 전송하는 것이다. 이는 업계 스스로가 만든, 아직 대규모로 해결하지 못한 문제에 대한 실용적인 우회책이다.
전문가용 vs 범용 아키텍처 논쟁은 여전히 유효하다
통합형 범용 아키텍처가 결국 전문 실리콘을 대체할 것인가라는 피할 수 없는 질문에 대해, 펠드먼은 홍보성 답변 대신 분석적 프레임워크를 제시했다. 그는 결과가 전적으로 자원 환경의 형태에 의해 결정된다고 주장했다. "전문가가 겨냥하는 자원의 맥이 매우 크다면, 전문가가 이를 압도하고 승리한다. 반면 자원 환경이 작고 파편화된 여러 주머니로 구성되어 있다면 범용 설계자가 승리한다." 그는 개별 그래픽 분야에서 GPU의 지배력을 전문가의 승리로, 모바일 시장에서 ARM이 x86을 물리친 것을 또 다른 사례로, 그리고 파편화된 사용 사례에서 x86 머신이 범용 설계자로 승리한 것을 예로 들었다. 그의 견해에 따르면 AI 추론, 특히 '디코드' 문제는 크고 구조적으로 뚜렷한 작업 부하를 나타내며, 이는 전문가용 아키텍처를 정당화한다. 모델 효율성이 향상되고 하드웨어 경쟁이 치열해짐에 따라 이러한 자원의 맥이 충분히 크게 유지될 수 있을지는 Cerebras의 논리에 대한 핵심적인 장기 위험 요소이며, 펠드먼은 이에 대해 직접적인 언급은 피했다.