NVIDIA 트랜스크립트: Vera Rubin AI 플랫폼 본격 양산 돌입, 에이전트가 컴퓨팅 경제를 재편하다
GTC 타이베이 2026 기조연설 - 2026년 6월 1일
젠슨 황(Jensen Huang) NVIDIA CEO는 GTC 타이베이 무대에 올라 NVIDIA의 야심 찬 Vera Rubin 플랫폼이 현재 본격적인 양산 단계에 돌입했다고 발표했다. 이는 PC 혁명 이후 컴퓨팅 분야에서 가장 중대한 변화라고 그는 강조했다. 대만 전역 70개 장소에서 동시 생중계된 이번 기조연설의 핵심은 '실용적인 AI 시대'가 도래했으며, 컴퓨팅 경제가 근본적으로 변화했다는 점이다.
AI 경제학: 토큰이 곧 매출이다
황 CEO는 에이전트형 AI(Agentic AI)가 단순한 기대를 넘어 실제 생산성 향상으로 이어지고 있다는 강력한 증거를 제시하며 연설을 시작했다. GitHub 커밋 데이터를 공개한 그는 2023년 3,000만 명의 소프트웨어 개발자가 3억 건의 커밋을 생성했던 것과 달리, 2025년에는 5억 건으로 증가했고, 2026년 들어서는 불과 몇 달 만에 9억 건에 육박하는 수준으로 약 3배 급증했다고 밝혔다.
경제적 파급효과는 막대하다. 황 CEO는 현재 3조 달러 규모의 개발자 연봉이 과거 9조 달러 규모의 인적 생산성이 필요했던 가치를 창출하고 있다고 설명했다. 이는 AI가 측정 가능한 GDP 성장을 견인한다는 첫 번째 실질적 증거다. 그는 일자리 대체에 대한 우려와 달리, 엔지니어 1인당 생산 가치가 극대화됨에 따라 기업들이 오히려 소프트웨어 엔지니어를 더 많이 채용하고 있다고 강조했다.
이러한 생산성 폭발은 컴퓨팅 인프라에 대한 전례 없는 수요를 창출했다. 황 CEO는 "토큰이 이제 수익을 창출하는 단위가 되었기 때문에 AI 기업들은 더 많은 토큰을 생성하길 원하며, 이것이 대만 반도체 생태계의 폭발적 성장을 견인하고 있다"고 말했다. 그는 대만의 GDP 성장률이 10%에 육박할 것으로 전망되는 점을 이러한 컴퓨팅 수요의 직접적인 증거로 제시했다.
에이전트 컴퓨팅 모델의 이해
황 CEO는 에이전트가 기존 애플리케이션과 어떻게 근본적으로 다른지 설명하는 데 많은 시간을 할애했다. 에이전트는 관찰, 추론, 계획, 행동을 조율하는 '하네스(harness)' 내부에 위치한 거대언어모델(LLM)로 구성된다. 에이전트는 마치 운영체제가 애플리케이션을 관리하듯, 스프레드시트, 웹 브라우저, 데이터베이스, 특수 컴퓨팅 엔진 등 다양한 도구를 하네스를 통해 활용한다.
시연에서는 간단한 텍스트 프롬프트로 대만 101 빌딩의 GIF 애니메이션을 생성하거나, 구두 설명만으로 3D 프린팅용 CAD 파일을 제작하고, 자연어를 통해 복잡한 작업을 실행하는 모습이 공개되었다. 황 CEO는 컴퓨팅 패턴이 '애플리케이션을 실행하고 버튼을 클릭하는 방식'에서 'AI에게 의도를 설명하면 AI가 코드를 생성하거나 도구를 사용하여 결과물을 만들어내는 방식'으로 전환되었다고 역설했다.
도구 사용과 관련한 주요 통찰도 공유되었다. 에이전트형 AI가 소프트웨어 기업을 쓸모없게 만들 것이라는 오해에 대해 그는 정반대의 견해를 밝혔다. 인간 노동력의 한계에 갇혀 있던 과거와 달리, 이제 에이전트가 인간보다 훨씬 더 많은 도구를 활용하게 될 것이며, 이는 도구를 에이전트가 사용할 수 있는 형태로 제공하는 소프트웨어 기업들에게 전례 없는 기회가 될 것이라는 분석이다.
디스어그리게이티드(Disaggregated) 컴퓨팅의 도전
에이전트형 컴퓨팅 모델은 궁극적으로 분해 및 분산된(disaggregated and distributed) 컴퓨팅 아키텍처를 지향한다. 데이터센터의 각기 다른 영역에서 서로 다른 구성 요소가 작동한다. LLM의 사고 과정은 Grace Blackwell NVLink 72 시스템 전체 랙을 가동하며, 도구 사용은 컴파일러, Python, JavaScript 또는 가속 컴퓨팅 라이브러리를 실행하는 CPU를 활성화한다. 보안 하네스는 NVIDIA의 BlueField와 같은 CPU 및 DPU에서 실행되며, 전체 워크플로우의 오케스트레이션은 CPU가 담당한다.
메모리 관리는 가장 복잡한 과제로 떠올랐다. 'KV 캐싱'이라 불리는 작업 메모리는 정형 및 비정형 데이터를 모두 압축하고 검색해야 한다. 데이터 구조 간의 온톨로지와 관계는 극도로 복잡한 처리 요구사항을 만들어내며, 황 CEO는 AI 메모리 시스템이 스토리지 인프라를 완전히 혁신할 것이라고 예견했다.
이러한 이기종 분산 아키텍처가 바로 NVIDIA가 Vera Rubin을 구축한 이유다. 황 CEO는 Vera Rubin이 단일 칩이 아니라 GPU, CPU, 스토리지 시스템, ConnectX-9 네트워킹, 보안 프로세서, 소프트웨어 스택을 포함한 엔드투엔드 시스템임을 강조했다. AI 모델의 가치가 매우 높기 때문에 모든 시스템에는 기밀 컴퓨팅(confidential computing)이 적용된다. 각 구성 요소는 그 자체로 혁신이지만, 이들이 결합된 Vera Rubin은 NVIDIA 역사상 가장 야심 찬 도전이다.
인프라 기업으로 거듭난 NVIDIA
황 CEO는 NVIDIA가 GPU 기업에서 시스템 기업으로, 이제는 인프라 기업으로 진화했다고 설명했다. 이제 생태계에는 발전기, 냉각 시스템, 전력망 제공업체까지 포함된다. NVIDIA의 목표는 고객이 AI 팩토리를 건설할 수 있도록 완벽한 인프라 스택을 구축하는 것이다.
그는 GPU를 위한 RTX, 시스템을 위한 DGX에 이어 인프라 청사진인 'DSX'를 소개했다. DSX Sim은 Omniverse 기반의 시뮬레이터로, 파트너들은 랙을 주문하기 전에 전체 AI 팩토리를 설계하고 검증할 수 있다. 레이아웃 계획, 전력 및 냉각 시뮬레이션, 네트워크 설계, 디지털 트윈을 통한 변경 사항 테스트가 모두 가능하다.
DSX OS는 인프라를 프로비저닝, 운영, 모니터링 및 복구하여 설치된 시스템을 신뢰할 수 있는 다중 테넌트(multi-tenant) AI 용량으로 변환한다. 혁신 기술인 'DSX MaxLPS'는 오버프로비저닝을 40%에서 0%에 가깝게 줄여 동일 전력 예산 내에서 더 많은 GPU를 배치할 수 있게 하며, 이를 통해 연간 수십억 달러의 매출 증대 효과를 낸다. 45도의 온수 냉각 방식은 물과 에너지 소비를 줄이며, 동적 전력 할당은 랙 간 전력을 조절해 유휴 전력을 회수한다. AI 에이전트 팀은 냉각과 전력을 지속적으로 조율하여 워크로드 수요를 충족시킨다.
황 CEO는 DSX AI 팩토리가 전력망과 협력하는 유연한 에너지 자산으로 기능하는 방식을 시연했다. DSX Flex는 실시간 전력망 신호를 읽고 전력망의 부하가 필요할 때 소비량을 동적으로 조절한다. 100기가와트 규모의 AI 팩토리가 가동될 것으로 예상되는 금세기 말까지, 이러한 효율성 개선은 막대한 경제적 이점으로 이어질 것이다.
경쟁 우위를 결정짓는 4가지 요소
황 CEO는 AI 인프라 투자 평가를 위한 결정적 프레임워크를 제시했다. 인프라 가동 속도, 처리량(throughput), 신뢰성, 유효 수명이 투자 수익률(ROI)에 미치는 영향을 설명하는 곡선을 통해, 500억~1,000억 달러 규모의 시스템에서 각 요소가 얼마나 중요한지 강조했다.
첫 토큰 생성까지의 시간(Time to first token)은 매우 중요하다. 모든 구성 요소를 공동 설계하고 시뮬레이션하는 NVIDIA의 통합 접근 방식은 경쟁사보다 훨씬 빠른 배포를 가능케 한다. 처리량당 전력 소비(Throughput per watt)는 곧 매출이다. 1기가와트의 전력 용량을 가진 데이터센터에서 모든 토큰은 수익이므로, 전력당 처리량은 직접적인 매출과 직결된다. 황 CEO는 성능을 고려하지 않고 저렴한 칩을 선택하는 것은 경제적으로 비합리적이라며, "더 많이 살수록 더 많이 벌게 된다"고 강조했다.
대규모 환경에서 신뢰성은 매우 중요하다. NVIDIA는 오랜 기간 대규모 운영 경험을 통해 조화롭고 신뢰할 수 있는 운영 환경을 구축했다. 시스템 수명 역시 핵심이다. Hopper 도입 이후 4년 만에 AI 산업은 CNN에서 Transformer, Mixture of Experts, 그리고 에이전트 시스템으로 급변했다. 유연한 아키텍처와 풍부한 생태계가 없으면 자산 수명은 짧아질 수밖에 없다. CUDA를 기반으로 한 NVIDIA 생태계는 긴 자산 수명과 낮은 총소유비용(TCO)을 보장한다.
Vera Rubin: 본격 양산 발표
황 CEO가 Vera Rubin의 본격적인 양산을 발표하자 장내에는 지속적인 박수가 터져 나왔다. Vera Rubin을 위해 구축된 공급망은 Grace Blackwell보다 두 배 더 크다. 제조 처리량도 비약적으로 향상되어, Grace Blackwell 랙 하나를 조립하는 데 2시간이 걸렸던 공정이 이제 5분으로 단축되었다. Grace Blackwell을 지원하기 위해 구축된 수백만 평방피트 규모의 제조 시설이 이제 Vera Rubin 생산을 위해 가동되고 있다.
영상에서는 TSMC의 3나노 공정, CoWoS 첨단 패키징, Micron·SK하이닉스·삼성의 HBM4 메모리를 활용한 제조 과정이 상세히 소개되었다. Vera Rubin GPU는 6조 개의 트랜지스터를 탑재하고 있으며, 단일 보드에 18,000개 이상의 부품이 들어간다.
Vera Rubin NVL72는 프롬프트 처리, 맥락 이해, 추론 및 계획 등 '사고'를 담당한다. 모듈형 컴퓨팅 트레이는 간소화된 PCB 미드플레인을 갖췄다. ConnectX-9, SuperNIC, BlueField-4 DPU는 케이블 없이 유지보수가 가능하여 복원력과 확장성을 높였다. 18개의 컴퓨팅 트레이와 9개의 핫스왑 가능한 NVLink 스위치 트레이가 5,000암페어 이상의 전류를 전달하는 고효율 액체 냉각 버스바를 통해 연결된다. 이는 전기차 20대가 급가속할 때와 맞먹는 전력량이다. 총 130만 개의 부품이 3세대 MGX 랙을 구성한다.
황 CEO는 Microsoft, Dell, CoreWeave가 Vera Rubin NVL72 엔지니어링 랙을 성공적으로 구축한 점을 치하했다. Vera CPU 랙은 단일 액체 냉각 랙에 256개의 CPU를 탑재하여 모델 오케스트레이션, 메모리 관리, 도구 실행을 담당한다. Foxconn과 Quanta가 제조한 Vera LPX 랙은 16개 트레이에 걸쳐 256개의 Groq LPU를 탑재, 초저지연을 위해 초당 40페타바이트의 SRAM 대역폭을 제공한다. NVL72가 최대 처리량으로 토큰을 생성한다면, LPX는 최저 지연 시간으로 이를 생성한다.
Vera BlueField-4 STX는 AI 메모리 스토리지 역할을 수행하며, 메모리, 스토리지, 실리콘 내 보안을 연결하는 가속 스토리지 처리를 담당한다. NVIDIA Spectrum-X 이더넷 포토닉스는 TSMC CoWoS 공정, 칩 스케일 패키징, 인듐 인화물 기반의 초고출력 레이저 다이오드를 사용한 세계 최초의 200기가비트 공동 패키징 광학 이더넷 스위치다.
전체 시스템은 5개의 랙 스케일 시스템으로 구성되며, 대만 전역 150개 공급망 파트너와 수백 개 사이트의 제조 시설이 참여했다. 황 CEO는 Vera Rubin이 단순히 AI를 실행하기 위해서가 아니라, '에이전트를 실행하기 위해' 특별히 설계되었다고 강조했다.
Vera CPU: 에이전트를 위한 컴퓨팅
황 CEO는 Vera CPU가 기존의 모든 프로세서와 근본적으로 다르다고 소개했다. 전통적인 CPU는 인간의 시간 단위(초)에 맞춰 설계되었고, 클라우드 경제는 CPU 코어를 시간 단위로 임대하는 방식이었다. 하지만 에이전트는 나노초 단위로 움직인다. 에이전트는 도구를 사용하거나 데이터베이스에 접근할 때 지연을 허용하지 않는다. 따라서 CPU를 최대한 저지연, 대화형으로 만드는 것이 필수적이다.
Vera Rubin 시스템 내에서 CPU는 세 가지 기능을 수행한다. 각 랙의 CPU 2개는 GPU 오케스트레이션, KV 캐시 관리, 랙 소프트웨어를 담당한다. Grace BlueField CPU는 보안과 격리를 담당하며, Vera 컴퓨팅 CPU는 하네스, AI 모델 오케스트레이션, 도구 사용 및 데이터베이스 접근을 처리한다. Vera BlueField CPU는 역대 가장 빠른 스토리지 서버를 구동한다.
이 시스템들은 데이터센터에서 가장 비용이 많이 드는 경로에 위치한다. 경제성은 토큰 생성에 집중되어 있으며, CPU 인프라는 이 핵심 기능을 방해해서는 안 된다. 이를 위해 NVIDIA는 인간이 아닌 에이전트를 위해 처음부터 완전히 새로운 아키텍처의 CPU를 설계했다.
황 CEO는 Vera CPU의 4가지 특징을 제시했다. 첫째, 지연 시간을 줄이기 위해 클럭당 명령어(IPC) 처리 능력이 극도로 높아야 한다. Vera는 세계 최고 수준의 IPC를 달성하여 클럭당 10개의 명령어를 가져오고, 디코딩하고, 실행한다. 둘째, 데이터 이동을 위해 코어당 대역폭이 뛰어나야 한다. 셋째, 시스템 전체 대역폭이 세계 최고 수준이어야 한다. 에이전트 시스템은 분산되어 있으므로 네트워크가 핵심이다. Vera는 빛의 속도로 모든 코어를 연결하는 패브릭을 갖췄으며, PCIe Gen 6와 LPDDR5를 사용하여 시장 최고 성능 CPU 대비 2~3배 높은 1.2테라바이트의 대역폭을 제공한다. 넷째, 에너지 효율성이다. 수십억 명의 인간보다 훨씬 많은 수십억 개의 에이전트가 존재할 미래를 대비해, CPU는 토큰 생성에 필요한 전력을 뺏지 않으면서도 높은 성능을 내야 한다.
Vera CPU 성능 벤치마크
Vera의 핵심인 NVIDIA Olympus 코어는 복잡한 Python 런타임, 도구 호출, 샌드박스 코드 실행 등 현대적인 데이터센터 워크로드를 위해 설계되었다. 신경망 분기 예측기(neural branch predictor)가 사이클당 2개의 분기를 평가하고, 10-wide 디코드 엔진이 매 사이클 더 많은 작업을 처리한다. 또한, LPDDR5X 메모리를 사용하여 x86 대비 40% 낮은 피크 메모리 지연 시간을 달성했다.
벤치마크 결과는 놀라웠다. SQL은 3배, 실시간 스트림 처리는 6배 더 빠르게 실행된다. 황 CEO는 뉴욕증권거래소(NYSE)와의 파트너십을 언급하며 이 시스템이 전 세계에서 실시간으로 구동되고 있음을 강조했다. 에이전트를 위한 CPU 시장은 인간을 위한 시장보다 훨씬 커질 것이며, 이는 NVIDIA에게 새로운 성장의 발판이 될 것이다.
NVIDIA 에이전트 툴킷
황 CEO는 에이전트가 향후 10년의 컴퓨팅을 정의할 것이라고 강조했다. 모든 기업은 에이전트 기업이 될 것이며, 에이전트 운영체제와 안전한 구축 환경이 필요해질 것이다. 'NVIDIA 에이전트 툴킷(NVIDIA Agent Toolkit for Enterprise AI)'은 이러한 요구를 충족한다.
툴킷은 모델(똑똑하고 빠르며 저렴한 LLM), 하네스(오케스트레이션), 도구 및 기술(CUDA-X 라이브러리), 런타임(운영체제)이라는 4가지 핵심 요소를 제공한다. 특히 'NVIDIA OpenShell'은 기업용 보안 하네스로, 에이전트의 프라이버시를 보호하고 권한을 관리한다. 이 오픈소스 하네스는 Red Hat, Canonical, Microsoft 등 전 세계 기업에서 채택하고 있다.
Cadence 칩 설계 슈퍼 에이전트
황 CEO가 가장 선호하는 사례 중 하나는 칩 설계다. NVIDIA는 Cadence와 협력하여 Codex 또는 Claude Code로 오케스트레이션되는 '칩 설계 슈퍼 에이전트'를 구축했다. RTL, 아키텍처 다이어그램, 사양 등을 입력하면 Nemotron 기반의 슈퍼 에이전트가 설계를 돕는다. 기존에 수주가 걸리던 설계 검증 주기를 단 몇 시간으로 단축하여 40배 이상의 효율을 기록했다. 이는 NVIDIA가 더 큰 야망을 품고 더 빠르게 실행할 수 있게 해준다.
Nemotron 3 Ultra: 파운데이션 모델
Nemotron 3 Ultra는 세계 최초로 상태 공간 모델(State Space Models)과 Mixture of Experts(MoE)를 결합한 하이브리드 아키텍처 기반의 모델이다. 기존 모델 대비 5배 빠르고 30% 저렴하며, 완전히 오픈되어 있다. NVIDIA는 이 모델과 학습 데이터, 스크립트를 모두 공개하여 누구나 자신만의 에이전트를 만들 수 있도록 지원한다.
개인용 컴퓨터의 재발명
황 CEO는 Microsoft와 함께 40년 만에 PC를 재발명하고 있다고 밝혔다. 에이전트가 탑재된 PC는 사용자를 이해하고 대화하며 스스로 연구하고 작업을 수행한다. LLM은 PC의 지능형 확장이자 현대판 DirectX와 같다. 애플리케이션 계층은 에이전트 런타임으로 대체될 것이다.
NVIDIA RTX Spark 도입
RTX Spark는 AI 시대를 위해 재설명된 PC다. Blackwell RTX GPU(6,144 Tensor 코어, 1페타플롭 성능)와 MediaTek과 공동 개발한 20코어 Grace CPU가 NVLink로 연결되어 128GB의 통합 메모리를 제공한다. Microsoft와의 긴밀한 협력을 통해 에이전트를 위한 Windows 플랫폼으로 최적화되었으며, NVIDIA의 모든 소프트웨어 생태계가 완벽하게 작동한다.
물리적 AI와 Cosmos 3 파운데이션 모델
에이전트형 AI는 디지털 로봇과 같다. NVIDIA는 물리적 세계를 이해하고 추론하는 'Cosmos 3' 파운데이션 모델을 발표했다. 로봇 공학, 자율주행, 제조 장비 등 모든 물리적 AI의 기반이 되는 이 모델은 픽셀, 동작, 소리, 언어를 처리하여 미래를 예측하고 행동을 생성한다. 이는 Nemotron과 마찬가지로 오픈 모델 시스템으로 제공되어 개발자들이 각자의 도메인에 맞춰 최적화할 수 있다.
Alpamayo 2 Super 및 Isaac GR00T
자율주행차를 위한 'Alpamayo 2 Super'는 전 세계 자동차 제조사 80%가 사용하는 DRIVE Hyperion 플랫폼에서 구동된다. 또한 휴머노이드 로봇을 위한 'Isaac GR00T' 플랫폼은 모델, 시뮬레이션, 런타임을 통합한 레퍼런스 디자인을 제공한다. 황 CEO는 대학 및 연구소들이 로봇 개발의 어려움을 극복할 수 있도록 이 오픈 플랫폼을 전폭적으로 지원하겠다고 밝혔다.
결론: 에이전트 시대의 개막
황 CEO는 지난 6개월간 컴퓨팅 산업이 에이전트 중심으로 완전히 재편되었다고 요약했다. Vera Rubin의 양산, 에이전트를 위한 Vera CPU, 그리고 모든 기업을 위한 에이전트 툴킷까지, NVIDIA는 이제 단순한 GPU 기업을 넘어 AI 팩토리를 건설하는 인프라 기업으로 확고히 자리 잡았다. 그는 파트너들과 함께 이 새로운 컴퓨팅 혁명을 이끌게 되어 영광이라며 연설을 마쳤다.
NVIDIA 심층 분석: 풀스택 공동 설계를 통한 에이전트 시대의 독점
비즈니스 모델과 수익 구조
NVIDIA는 그래픽 카드 제조사에서 수직 계열화된 풀스택 가속 컴퓨팅 플랫폼 제공업체로 진화하며 기업 역사상 가장 놀라운 전환을 이뤄냈다. NVIDIA 경제 모델의 핵심 엔진은 데이터 센터 사업부로, 현재 회사 전체 매출의 92% 이상을 차지하고 있다. NVIDIA는 개별 실리콘 칩을 판매하는 대신, 고성능 그래픽 처리 장치(GPU), 맞춤형 중앙 처리 장치(CPU), 첨단 네트워킹 실리콘, 독점 소프트웨어를 아우르는 완전한 가속 컴퓨팅 플랫폼을 판매하는 구조를 갖췄다. 최근 몇 분기 동안 판매 단위는 개별 서버 보드에서 Grace Blackwell 시스템 및 최근 생산이 확대되고 있는 Vera Rubin 플랫폼과 같은 완전히 통합된 랙 규모의 슈퍼컴퓨팅 인클로저로 이동했다. 이를 통해 NVIDIA는 공급망 전반에 걸쳐 분산될 수 있었던 고마진 하드웨어 계층과 소프트웨어 프리미엄을 독점적으로 확보하고 있다.
NVIDIA의 재무 실적은 이러한 시스템 단위 수익화 전략의 복리 효과를 반영한다. 2026년 4월 26일에 마감된 2027 회계연도 1분기, NVIDIA는 전년 대비 85%, 전 분기 대비 20% 성장한 816억 달러의 기록적인 총매출을 달성했다. 이러한 성장은 전년 대비 92% 증가한 752억 달러의 매출을 올린 데이터 센터 부문이 견인했다. 이 모델의 재무적 생산성은 독보적인 가격 결정력과 고마진 시스템 구성에 기반하며, GAAP 및 비GAAP 기준 매출총이익률(Gross Margin)은 각각 74.9%와 75.0%에 달한다. 이러한 막대한 수익성은 공격적인 자본 환원 전략을 뒷받침한다. 2027 회계연도 1분기에만 NVIDIA는 분기별 현금 배당금을 주당 0.25달러로 인상하고 800억 달러 규모의 자사주 매입 프로그램을 신설하는 등 총 200억 달러를 주주에게 환원했다.
고객, 공급업체 및 경쟁사 생태계
NVIDIA 가치 사슬의 구조적 역학은 극심한 고객 집중도, 높은 제조 전문성, 치열한 경쟁 구도로 특징지어진다. NVIDIA의 주요 고객 기반은 Microsoft, Amazon, Alphabet, Meta 등 이른바 '빅4'로 불리는 글로벌 클라우드 서비스 제공업체 및 하이퍼스케일러들이다. 이러한 집중도는 매출 파이프라인에 상당한 위험을 초래하는데, 2026 회계연도 말 기준으로 단 4개 고객사가 전체 매출의 61%를 차지했으며, 최대 단일 구매자의 비중은 22%에 달했다. 최종 고객은 기업용 소프트웨어 개발자, 소비자 인터넷 플랫폼, 그리고 국가 차원의 AI 인프라를 구축하는 각국 정부다. 공급 측면에서 대만 TSMC는 NVIDIA의 대체 불가능한 제조 파트너다. NVIDIA는 대만 내 자본 지출 및 조달 비용을 연간 약 1,500억 달러 규모로 확대하며 대만 기술 생태계의 최대 구매자로 자리매김했고, 이를 통해 첨단 노드와 CoWoS(Chip-on-Wafer-on-Substrate) 패키징 생산 능력에 대한 우선적인 접근권을 확보했다. SK하이닉스, 삼성전자, 마이크론 등도 현대적 가속기에 필수적인 고대역폭 메모리(HBM)를 공급하는 핵심 파트너다.
경쟁 환경을 보면, 상용 반도체 시장은 하이엔드급에서 사실상 듀오폴리(복점) 형태를 띤다. AMD는 Instinct GPU 포트폴리오를 확장하며 주요 도전자로 나서고 있다. AMD는 Instinct MI300 시리즈와 차기 MI350 및 MI400 아키텍처에 힘입어 2026년 1분기 데이터 센터 매출이 전년 대비 57% 증가한 58억 달러를 기록했다고 발표했다. AMD는 OpenAI와의 기가와트급 인프라 구축, Meta와의 맞춤형 공동 설계 이니셔티브 등 주요 파트너십을 확보했다. 인텔의 Gaudi 가속기는 소프트웨어 생태계 채택 및 플랫폼 통합 문제로 고전하며 3위에 머물러 있다. 상용 실리콘 시장을 넘어 가장 강력한 경쟁자는 하이퍼스케일러 내부의 엔지니어링 조직들로, 이들은 상용 실리콘 마진을 회피하기 위해 자체적인 주문형 반도체(ASIC) 설계를 늘리고 있다.
시장 점유율 역학과 공동 설계의 해자
NVIDIA는 2026년 중반 기준 상용 AI 가속기 시장의 85%~92%를 점유하며 압도적인 지배력을 유지하고 있다. 경쟁사들이 시장에서 2위 자리를 확보하고 있으나, 업계 수요의 폭발적인 속도 덕분에 NVIDIA는 마진율을 훼손하지 않으면서도 리더십을 유지할 수 있었다. 이러한 시장 지배력의 근간은 20년 이상 개발된 독점 소프트웨어 컴퓨팅 플랫폼인 CUDA(Compute Device Unified Architecture)다. CUDA는 대부분의 AI 학습 라이브러리, 컴파일러, 프레임워크 최적화가 NVIDIA 소프트웨어 스택에 맞춰 작성되어 있어 거대한 개발자 락인(Lock-in) 효과를 창출했다. 최신 모델을 경쟁사 하드웨어에서 구동하려면 복잡한 에뮬레이션 계층이나 광범위한 코드 재작성이 필요한데, 이는 대부분의 기업 구매자가 감당하기 어려운 실행 위험과 지연 시간을 초래한다.
NVIDIA의 경쟁 우위는 소프트웨어-실리콘 해자에서 고도로 통합된 랙 규모의 공동 설계 패권으로 확장되었다. 데이터 센터 아키텍처가 진화함에 따라 성능 병목 현상은 단순 컴퓨팅 성능에서 시스템 수준의 통신 및 인터커넥트 대역폭으로 이동했다. NVIDIA는 독점적인 스케일업 및 스케일아웃 네트워크, 특히 NVLink 인터커넥트 프로토콜과 NVSwitch 실리콘을 통해 이를 해결한다. 최근 발표된 Vera Rubin 플랫폼에서 NVLink 6 스위치는 초당 260테라바이트의 집계 대역폭을 제공한다. 맞춤형 ARM 기반 Vera CPU, Rubin GPU, ConnectX-9 SuperNIC, Spectrum-6 이더넷 스위치를 포함한 전체 시스템의 유일한 설계자로서 NVIDIA는 랙 수준에서 메모리 액세스와 전력 공급을 최적화한다. 이러한 시스템 수준의 엔지니어링 역량은 기업 구매자들이 개별 반도체 요소보다 턴키 방식의 완전 최적화된 액체 냉각 슈퍼컴퓨터를 선호함에 따라 경쟁사들이 부품 단위로 경쟁하는 것을 원천 봉쇄한다.
산업 기회, 지정학적 위협 및 플랫폼 집중도
NVIDIA의 주요 장기 기회는 생성형 AI 모델에서 에이전트형 AI 및 강화 학습 아키텍처로의 세속적 전환에 있다. 생성형 AI가 단일 패스, 피드포워드 추론 쿼리에 크게 의존했다면, 에이전트형 AI 시스템은 자율적이고 다단계 워크플로우를 실행한다. 단 하나의 사용자 프롬프트가 로컬 샌드박스 코드 실행, 벡터 데이터베이스 검색, 도구 활용, 추론 루프를 포함한 수천 개의 순차적 단계를 트리거할 수 있다. 이러한 에이전트 전환은 트랜잭션당 컴퓨팅 강도를 기하급수적으로 증가시켜 데이터 센터 인프라의 총 주소 가능 시장(TAM)을 구조적으로 확장하고, 초기 기초 모델 학습이 완료된 후에도 첨단 하드웨어에 대한 수요를 지속시킨다.
이러한 구조적 기회는 심각한 지정학적 역풍과 플랫폼 집중도라는 위험 요소와 맞물려 있다. 가장 즉각적인 재무적 타격은 미국의 엄격한 수출 제한으로 인한 중국 데이터 센터 시장의 완전한 상실이다. 2026 회계연도 1분기에 NVIDIA는 중국 고객으로부터 46억 달러의 Hopper급 데이터 센터 매출을 올렸으나, 2027 회계연도 1분기에는 이 수치가 0으로 떨어졌다. NVIDIA의 현재 가이던스는 중국으로부터의 데이터 센터 컴퓨팅 매출이 없음을 전제로 하며, 이는 거대한 시장이 영구적으로 닫혔음을 의미한다. 또한 글로벌 반도체 공급망이 대만에 집중된 것은 체계적인 꼬리 위험(Tail-risk)이다. TSMC가 AI 가속기에 사용되는 첨단 실리콘의 약 90%를 제조하고 있어, 이 지역의 지정학적 혼란은 즉각적으로 NVIDIA의 하드웨어 생산을 중단시킬 수 있다. 마지막으로 상위 4개 하이퍼스케일러에 대한 극심한 고객 집중도는 이들 주요 구매자가 기존 용량을 최적화하기로 결정할 경우 NVIDIA가 자본 지출 소화 주기(Digestion cycle)에 노출될 위험을 안고 있다.
기술 로드맵: Vera, Rubin, 그리고 에이전트형 AI로의 전환
경쟁을 선제적으로 차단하고 고마진 수익원을 유지하기 위해 NVIDIA는 하드웨어 출시 주기를 1년 단위로 단축했다. 2026년 3분기 초기 고객 인도를 위해 본격적인 생산에 들어간 Vera Rubin 플랫폼은 에이전트 시대를 위해 특별히 설계되었다. 이 플랫폼은 단순한 단일 반도체 다이가 아니라 Vera CPU, Rubin GPU, NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 이더넷 스위치, Groq 3 LPU 등 7개의 맞춤형 설계 칩으로 구성된 통합 제품군이다. 이러한 극단적인 공동 설계를 통해 전체 랙 규모 시스템이 단일 분산 가속기처럼 작동하며 기존 모듈형 설계의 성능 및 통신 제한을 우회한다.
이 차세대 아키텍처의 핵심은 TSMC의 첨단 3나노 공정으로 제작된 Rubin GPU다. Rubin GPU는 Blackwell 아키텍처 대비 1.6배 증가한 3,360억 개의 트랜지스터를 탑재하고, 8개 스택에 걸쳐 288GB의 HBM4 메모리를 통합한다. 이 아키텍처는 Blackwell보다 2.8배 높은 초당 22테라바이트의 메모리 대역폭을 제공한다. Rubin GPU는 하드웨어 가속 적응형 압축 기능을 갖춘 3세대 Transformer Engine을 활용하여 4비트 부동 소수점 형식을 지원하며, 최대 50페타FLOPS의 NVFP4 추론 성능을 구현한다. GPU당 최대 2,300와트의 열설계전력(TDP)으로 작동하는 Rubin 플랫폼은 전체가 액체 냉각 방식으로, NVIDIA의 하이엔드 데이터 센터 포트폴리오에서 공랭식 옵션을 완전히 배제했다.
플랫폼의 또 다른 핵심 성장 동력은 에이전트형 AI 오케스트레이션과 강화 학습을 위해 특별히 제작된 NVIDIA 최초의 맞춤형 ARM 기반 프로세서인 Vera CPU다. Vera CPU는 Armv9.2 아키텍처와 호환되는 88개의 맞춤형 Olympus 코어를 특징으로 하며 공간적 멀티스레딩을 활용해 코어 자원을 분할한다. 벤치마크 데이터에 따르면 Vera CPU는 기존 x86 서버 프로세서 대비 작업 완료 속도가 1.8배 향상되었으며, 이전 세대 Grace CPU보다 1.63배의 성능 도약을 이뤘다. 엣지 단에서는 Rubin 마이크로아키텍처를 소비자용 노트북 및 데스크톱으로 확장하는 RTX Spark 프로세서 아키텍처를 배포하고 있다. 이 온디바이스 에이전트 프레임워크는 AI 비서를 클라우드 의존형 도구에서 로컬의 저지연 자율 에이전트로 전환하여 개인용 컴퓨팅 시장에서 제2의 성장 채널을 구축하도록 설계되었다.
파괴적 도전자와 맞춤형 실리콘의 위협
AMD와 인텔 같은 전통적인 경쟁사가 시장 평론가들의 초점이지만, NVIDIA 시장 점유율에 대한 가장 신뢰할 수 있는 장기적 위협은 클라우드 하이퍼스케일러들이 내부적으로 설계하는 맞춤형 주문형 반도체(ASIC)의 급성장이다. 맞춤형 실리콘은 2025년 AI 가속기 시장의 20.9%를 차지했으며 2026년 말까지 27.8%로 확대될 것으로 예상된다. 하이퍼스케일러들은 NVIDIA의 막대한 상용 마진을 우회하고 총소유비용(TCO)을 절감하기 위해 독점 하드웨어를 배포하려는 강력한 동기를 가지고 있다. 구글의 TPU는 이 맞춤형 시장의 물량 기반을 계속 제공하고 있으며, 아마존의 Trainium 시리즈는 Meta와의 배포를 포함해 수십억 달러 규모의 상당한 계약을 확보했다.
Broadcom은 구글, Meta, OpenAI와의 다세대 맞춤형 공동 설계 파트너십을 통해 맞춤형 AI 반도체 시장의 약 60%를 점유하며 이 맞춤형 ASIC 생태계의 핵심 조력자이자 설계 파트너로 부상했다. Broadcom의 맞춤형 실리콘 프로그램은 첨단 2나노 노드로 확장되고 있으며, 심층적인 물리적 지적 재산권과 패키징 통합 역량을 활용하여 범용 GPU에 대한 고성능, 비용 효율적인 대안을 구축하고 있다. 마찬가지로 Marvell은 주로 Amazon Web Services와 Microsoft를 지원하며 맞춤형 ASIC 설계 공간의 약 20%~25%를 점유하고 있다. AI 시장이 성숙해지고 워크로드가 컴퓨팅 집약적인 기초 학습에서 반복적이고 비용에 민감한 추론으로 전환됨에 따라, 이러한 맞춤형 워크로드별 ASIC은 NVIDIA의 하이엔드 데이터 센터 시장 점유율을 점진적으로 잠식할 수 있는 구조적 역풍이다.
경영진의 성과와 희소성 속의 실행력
창업자이자 CEO인 젠슨 황(Jensen Huang)과 CFO 콜레트 크레스(Colette Kress)가 이끄는 NVIDIA 경영진은 운영 민첩성과 장기적인 전략적 선견지명에서 탁월한 실적을 입증했다. 경영진은 트랜스포머 모델 혁명에 필요한 하드웨어 요구 사항을 성공적으로 예측하고, 생성형 AI 파도가 완전히 구체화되기 전에 제조 및 첨단 패키징 용량을 확보하기 위해 공격적으로 자본을 투입했다. 이러한 공격적인 태세 덕분에 NVIDIA는 대만 내 150개 공급업체를 포함한 수백 개의 파트너로 구성된 매우 복잡한 공급망을 관리하며, 심각한 글로벌 패키징 및 실리콘 제약 속에서도 하드웨어 생산을 일관되게 실행할 수 있었다.
이러한 운영 실행력은 규율 있고 주주 중심적인 자본 배분 프레임워크와 결합되어 있다. 막대한 잉여 현금 흐름을 창출하는 비즈니스를 바탕으로 경영진은 재무적 강점을 활용하여 대규모 자본 환원 프로그램을 시작했다. 2027 회계연도 1분기에 회사는 200억 달러를 주주에게 환원하고 800억 달러 규모의 추가 자사주 매입 프로그램을 신설하여 총 매입 능력을 1,180억 달러 이상으로 늘렸다. 일부 시장 참여자들은 자사주 매입과 25배의 배당금 인상에 집중하는 것을 초고성장 스토리가 성숙기로 접어드는 신호로 해석하지만, 연간 하드웨어 출시 주기와 차기 Feynman 플랫폼과 같은 미래 아키텍처에 대한 막대한 R&D 투자를 병행하는 경영진의 의지는 NVIDIA가 균형 잡힌 자본 구조를 유지하면서도 기술 리더십에 여전히 집중하고 있음을 보여준다.
스코어카드
NVIDIA는 816억 달러의 기록적인 2027 회계연도 1분기 매출과 75.0%의 비GAAP 매출총이익률에서 알 수 있듯이, 글로벌 AI 인프라 구축의 진원지에서 독점에 가까운 강력한 위치를 계속 점유하고 있다. 회사의 경쟁 해자는 단순한 실리콘 우위를 넘어 최근 생산이 확대되고 있는 Vera Rubin 플랫폼으로 대표되는 전체 시스템 및 랙 규모의 공동 설계로 확장되었다. 88코어 맞춤형 Vera CPU와 3,360억 개의 트랜지스터를 갖춘 Rubin GPU를 결합하고 독점적인 NVLink 6 네트워크로 통합함으로써, NVIDIA는 이전 Blackwell 세대보다 최대 10배의 에이전트 처리량을 제공하는 최적화된 고통합 플랫폼을 만들었다. 이러한 풀스택 통합과 깊게 뿌리 내린 CUDA 소프트웨어 생태계가 결합되어, AMD와 같은 상용 경쟁사가 단기적으로 하이엔드 학습 및 복잡한 에이전트 추론 워크로드에서 상당한 시장 점유율을 확보하기는 매우 어려울 것으로 보인다.
이러한 탁월한 운영 성과에도 불구하고, 장기 투자자들은 NVIDIA의 지배력과 점증하는 구조적 및 지정학적 역풍을 비교 평가해야 한다. 회사는 단 4개의 하이퍼스케일러가 전체 매출의 60% 이상을 차지하는 전례 없는 고객 집중도에 직면해 있으며, 이들 구매자가 자본 지출 소화 단계에 진입할 경우 사업은 상당한 변동성에 노출될 수 있다. 동시에 구글과 아마존 같은 하이퍼스케일러를 위해 Broadcom과 Marvell이 공동 개발하는 맞춤형 ASIC의 급부상은 시장이 학습에서 비용에 민감한 추론으로 이동함에 따라 신뢰할 수 있는 장기적 위협이 되고 있다. 미국 수출 통제로 인한 중국 데이터 센터 매출의 완전한 상실과 대만 제조 생태계에 대한 체계적인 의존도가 더해져, NVIDIA의 프리미엄 밸류에이션은 실행상의 실수를 용납할 여지를 거의 남기지 않는다. 기술 로드맵은 여전히 독보적이지만, 성숙하고 고도로 집중된 시장으로의 전환은 향후 수익이 공급망 복원력과 맞춤형 실리콘 대체 경제에 의해 결정될 것임을 시사한다.