Nvidia-Transkript: Jensen Huang präsentiert die Zukunft des Agentic Computing, 50 % Cash-Rückführung und die Vera Rubin CPU-Architektur
GTC Taipei 2026 Finanzanalysten-Q&A, Juni 2026
Ankündigung zur Kapitalrückführung
Jensen Huang eröffnete die Sitzung mit einer bedeutenden Finanzankündigung. Nvidia plant, in diesem Jahr, im nächsten Jahr und darüber hinaus 50 % oder mehr des Free Cashflows an die Aktionäre zurückzuführen. Dies folgt auf das bereits angekündigte Aktienrückkaufprogramm im Volumen von 80 Milliarden Dollar sowie eine 25-fache Erhöhung der Dividende. Huang betonte, dass das Unternehmen beabsichtigt, Aktienrückkäufe und Dividenden im Zeitverlauf weiter zu steigern, und bezeichnete dies als ein substanzielles Bekenntnis zu den Aktionären.
Die Kernbotschaft: Agentic Computing als neues Paradigma
Huang erläuterte ausführlich das Konzept, das er seit zwei Jahren verfolgt. Das Computing-Muster der KI ist „agentisch“ (agentic), und Agenten sind die modernen Anwendungen. Diese Agenten können schlussfolgern, Werkzeuge nutzen und auf Langzeitgedächtnisse zugreifen. Das Gedächtnis kann dabei strukturiert oder unstrukturiert sein. Agenten können Werkzeuge nutzen, die sich auf einem PC, in der Cloud, in Design-Software, Programmiertools, Datenbankabfragen, der Datenverarbeitung oder in Chip-Design-Tools befinden. Dieses Computing-Muster wird überall Anwendung finden, genau wie Applikationen in der Vergangenheit überall liefen – in der Cloud, auf PCs, Workstations, in Fahrzeugen und sogar in humanoiden Robotern.
Dieser Computing-Ansatz ist verteilt und disaggregiert, was bedeutet, dass jeder Teil des agentischen Computing-Musters auf verschiedenen Segmenten des Rechenzentrums läuft. Hopper wurde für das Pre-Training entwickelt. Grace Blackwell führte zusätzlich zum Pre-Training und Post-Training die Inferenz ein. NVLink 72 ermöglichte es, die weltweit kostengünstigsten Tokens zu generieren – nicht um 20 %, sondern um das 20-Fache. Nvidia ist nun der kostengünstigste Weg zur Token-Generierung. Das Ziel ist nicht ein kostengünstiges Rechenzentrum, sondern die Produktion von Ergebnissen zu niedrigen Kosten. Nvidias Grace Blackwell generiert Tokens zu den weltweit niedrigsten Kosten.
Vera Rubin Architektur
Vera Rubin wurde für Pre-Training, Post-Training, Inferenz und das Ausführen von Agenten konzipiert. Dieses Computing-Muster ist disaggregiert und verteilt. Unterschiedliche Teile der Arbeitslast laufen auf verschiedenen Komponenten von Vera Rubin. Der rechenintensive Teil, der für KI den Umsatz generiert, ist die Token-Generierung. Deshalb ist die Maximierung der GPU-Anzahl entscheidend, da Unternehmen Tokens verkaufen. Unternehmen werden künftig damit beginnen, zu fragen, wie viele GPUs in ein 1-Gigawatt-Rechenzentrum passen, da dies die Umsätze maximiert.
Der Mittelteil besteht aus dem „Denkprozess“, der extrem rechenintensiv ist. Denken umfasst das Lesen des Kontexts, das Sichten sämtlicher Dokumente, das Schlussfolgern, das Erstellen eines Plans und das Handeln – also das Generieren von Befehlen für Werkzeuge. Das Feedback der Werkzeuge fließt zurück, und das System evaluiert, ob das Ergebnis korrekt ist. Dieses Hin und Her erfordert eine sehr schnelle Tool-Nutzung, da die KI auf die Antwort wartet. Deshalb arbeitet Nvidia mit der gesamten Softwareindustrie zusammen, um deren Anwendungen zu beschleunigen. Adobe hat seine Anwendung beschleunigt und Adobe Photoshop sowie Premiere erstmals seit Jahrzehnten vollständig neu architektonisiert. Nvidia beschleunigt zudem Cadence, Synopsys, Ansys und Siemens.
CPUs dürfen nicht nur einfach oder günstig zu mieten sein. Sie müssen schnell reagieren, weshalb die Single-Threaded-Performance entscheidend ist. Nicht Multi-Threading oder Multi-Core, sondern eine CPU, die einen Job für eine KI erledigt, muss extrem schnell sein. Da das System disaggregiert ist, hat Nvidia genau überlegt, wie die richtige CPU zu designen ist und wo sie platziert werden muss. Vera Rubin ist der weltweit beste Datenprozessor für Speichersysteme. Eine KI benötigt Langzeit- und Kurzzeitgedächtnis. Speicher ist Daten. Das Bewegen von Daten im gesamten Rechenzentrum erfordert eine enorme Bandbreite.
Vera verfügt über die höchste IO-Bandbreite. Zudem bietet Vera die höchste CPU-zu-CPU-Bandbreite, da CPUs bei der Datenverarbeitung miteinander kommunizieren müssen. Es gibt keine „Chiplet-Steuer“, da alles auf einem riesigen Die untergebracht ist. Nvidia hätte es in vier oder sechs kleine Dies aufteilen können, aber bei jedem Die-Übergang entsteht eine Chiplet-Steuer. Die CPU-zu-CPU-Bandbreite ist dreieinhalbmal höher. Die Querschnittsbandbreite innerhalb des Chips ist absolut führend, ebenso wie die IO-Bandbreite – nicht um 15 %, sondern um Faktoren.
Custom CPU-Core-Design
Grace war die erste CPU, bei der Nvidia diesen Weg einschlug. Vera ist die zweite Generation. Der CPU-Kern in Vera ist komplett maßgeschneidert, da Nvidia die weltweit höchste Anzahl an Instruktionen pro Takt (IPC) erreichen wollte. Die CPU holt, dekodiert und führt 10 Instruktionen gleichzeitig durch die gesamte Pipeline aus. Keine andere CPU weltweit leistet das. Vera wurde nicht für Menschen entwickelt, sondern für Agenten, die sehr ungeduldig sind. Accelerated Computing wurde für Agenten konzipiert. Dieses gesamte System ist nicht nur für Training oder Inferenz gedacht, sondern dafür, Agenten auszuführen.
PC-Neuerfindung mit Microsoft
Vor etwa drei Jahren sprach Huang mit Satya Nadella darüber, dass KI in Zukunft auch auf Geräten laufen muss, da Menschen ständig Unterstützung benötigen. Derzeit muss man auf einen Laptop warten, bis man wieder im Büro ist. In Zukunft wird man dem Laptop einfach eine Nachricht per WhatsApp schicken können. Der Laptop wird zur KI, zum ganztägigen Assistenten. Menschen wollen nicht alles in der Cloud ausführen, denn wenn es lokal läuft, ist es kostenlos – genau wie bei Laptops und Telefonen.
Huang und Nadella, Microsoft und Nvidia, beschlossen, eine völlig neue Computer-Kategorie zu schaffen. Diese gesamte Reihe ist weltweit die erste, die über Tensor-Processing, Parameter-Kompression und ein Betriebssystem verfügt, das eine sichere Sandbox ermöglicht, da Nutzer ihre Agenten in einer isolierten Umgebung mit spezifischen Berechtigungen ausführen wollen. Die Reihe umfasst Workstations, Desktops und Laptops. In den letzten drei Jahren wurde rund um die Uhr gearbeitet. Alles ist nun kompatibel; jede wichtige Anwendung wurde getestet und leistungsmäßig bewertet.
Die gesamte PC-Industrie, die gesamte Computerbranche, wird sich der Neuerfindung des Computers anschließen. Dies ist die erste echte Neuerfindung des PCs seit 40 Jahren. Das Verhalten eines PCs wird sich ändern: Er wird alles, was er bisher tat, besser erledigen und zusätzlich als Assistent fungieren.
Foundational Models und Ökosystem
Nvidia kündigte einige Foundational Models an, die weltweit führenden physikalischen KI-Modelle. Diese bilden die Speerspitze für Robotik-Systeme und autonomes Fahren. Nvidia stellt diese dem Ökosystem zur Verfügung. Die Idee ist, dass man nach der Implementierung des Modells einen agentischen Workflow hinzufügt und ihn überall ausführt. Das ist die Zukunft. Nvidia erfindet das Computing in jeder Hinsicht neu.
CPU-Marktchance
Auf die Frage nach dem 20-Milliarden-Dollar-Ziel für CPUs erklärte Huang, dass vor Vera jede CPU für Menschen gebaut wurde. Die Anforderungen an CPUs der Vergangenheit und der Zukunft unterscheiden sich grundlegend. Vera ist die erste CPU mit einer solchen IPC, einer solchen Bandbreite pro Kern, einer solchen Anzahl an Kernen mit hoher Inter-Core-Bandbreite und einer solchen Energieeffizienz. Die CPUs der Zukunft für die Agenten-Welt sind grundlegend anders als die der Vergangenheit.
Jedes Rechenzentrum, das Nvidia-GPUs enthält, wird wahrscheinlich Vera einsetzen. Nvidia verkauft Millionen GPUs. Teilt man diese Zahl durch zwei, erhält man die Anzahl der CPUs im Head-Node. Außerhalb des Head-Nodes befinden sich CPUs zur Orchestrierung der Arbeitslast sowie in den Storage-Servern. Diese Storage-Server-CPUs sind sehr leistungsstark. In der Welt der Nvidia-GPUs werden die CPUs wahrscheinlich in allen drei Konfigurationen von Nvidia stammen. Dies verdoppelt effektiv die Anzahl der CPUs.
Nvidias CPU-Marktanteil wird wahrscheinlich höher sein als der GPU-Anteil, da Nvidia einen GPU-Marktanteil von 100 % hat und mehr CPUs außerhalb von Nvidia-GPU-Systemen verkaufen wird. Wenn Nvidia mit Partnern bei NVLink Fusion zusammenarbeitet, verkauft das Unternehmen Switches, NICs und CPUs. Nvidia Vera wird über Nvidia-GPUs hinaus verkauft werden. Für die Datenverarbeitung, die weltweit wichtigste Arbeitslast in der Cloud, wird Nvidia viele CPUs absetzen. Ebenso für EDA und Simulation, wo Single-Threaded-Performance entscheidend ist.
CPUs der Vergangenheit und Zukunft haben unterschiedliche Design-Zentren. Nvidia zielt auf einen Markt ab, der vor sechs Monaten noch nicht existierte: Agenten. Agenten haben nützliche KI erst möglich gemacht und treiben nun eine enorme Nachfrage an. Vera wurde genau dafür gebaut, und die Zeit ist reif.
Über die Zukunft nachdenken: CPU-zu-GPU-Verhältnis
Huang betonte, dass die Fähigkeit, die Zukunft vorherzusehen, auf logischem Denken basiert, nicht auf Raten. Er erklärte, dass Unternehmen nur mit Tokens Geld verdienen. KI-Unternehmen wollen keinen CPU-Kern mieten, sie wollen Tokens verkaufen. Das Geschäftsmodell basiert auf Tokens. Unternehmen wollen zwei Dinge: den ASP (durchschnittlichen Verkaufspreis) der Tokens erhöhen, indem sie sie mit großen Modellen so intelligent wie möglich machen, und den Durchsatz maximieren, um so viele Tokens wie möglich zu produzieren.
Diese „Fabrik“ ist nur für Tokens wertvoll. Huang rät Kunden, die Anzahl der Vera Rubin NVLink 72-Systeme im Rechenzentrum zu maximieren. Zweitens: so viele CPUs wie nötig, aber so wenige wie möglich einzusetzen, um die GPUs zu unterstützen. Unternehmen wollen die Anzahl der Vera Rubins maximieren, da dies die Umsatzgenerierung ermöglicht. Wenn man 50 oder 60 Milliarden Dollar in ein Rechenzentrum investiert, sollte man damit auch Geld verdienen. CPUs generieren keine Tokens. Warum sollte man 30 Milliarden Dollar für CPUs ausgeben, die nichts tun?
Wo laufen die Agenten? Heute alle in der Cloud. Aber wo werden sie in Zukunft laufen? Überall. Sie alle benötigen CPUs. Deshalb hat Nvidia überall großartige CPUs. Heute gibt es keine Wahl, als Agenten in der Cloud laufen zu lassen. Nvidia versucht jedoch, sie zurückzuholen. Sie sollten auf Laptops laufen und bei Bedarf KI-Modelle in der Cloud abrufen. Die CPUs werden also verteilt sein. Nvidia wird dennoch viele CPUs verkaufen.
Der Grund ist simpel: Heute gibt es eine Milliarde Computernutzer. Morgen wird es zig Milliarden Agenten geben, die Computer nutzen. Diese neue Intelligenzpopulation benötigt Computer. Sie brauchen Laptops, Workstations und Vera Rubins zum Denken. Der CPU-Markt wird weitaus größer, aber er kann wertmäßig nicht mit GPUs konkurrieren.
Enterprise Software Stack
Auf die Frage zum Enterprise-Geschäft erklärte Huang, dass der Enterprise-Stack Nvidia dabei hilft, jedes Softwareunternehmen in ein „agentisches“ Unternehmen zu verwandeln. Ein Beispiel ist Cadence. Das Computing-Muster besteht aus vier Elementen: Modell-Harness, Werkzeuge und Fähigkeiten sowie Runtime. Dies sind die Zutaten, die Betriebsstruktur, das Betriebssystem für Agenten. Nvidia arbeitet mit allen SaaS-Unternehmen zusammen. Alles ist offen, bis auf die Nvidia AI Enterprise-Schicht. Das ist die Runtime-Schicht für Unternehmen. Nvidia berechnet etwa 1.000 bis 1.500 Dollar pro GPU pro Jahr.
Diese Softwarelizenz wächst deutlich. Wenn SaaS-Unternehmen sie in der Cloud betreiben, wird die Lizenz fällig. Huang hält dies für eine beträchtliche Geschäftsmöglichkeit in Milliardenhöhe.
PC-Strategie und Wertversprechen
Huang erläuterte Nvidias Einstieg in den PC-Markt. Nvidia ist seit langer Zeit in der PC-Industrie tätig. Das Unternehmen hat kein Interesse daran, ein weiteres Commodity-Gerät zu bauen. Nvidia baut keine CPU um der CPU willen, sondern weil sich die Welt verändert hat oder das Unternehmen die Welt verändern will. Als Huang in die Grafikindustrie einstieg, lag der Preis einer Grafikkarte bei 49 Dollar, High-End bei 100 Dollar. Heute bietet Nvidia Grafikkarten für 1.500, 2.500, 5.000 oder 8.000 Dollar an. Das Unternehmen hat definiert, was Grafik bedeutet, und sie von einer Grafikkarte zur GPU weiterentwickelt.
Dasselbe wird Nvidia mit PCs tun. Nvidia will nicht einfach einen PC bauen, sondern definieren, was ein PC ist. Ein PC ist heute wie eine Schreibmaschine – ein Gerät zum Tippen und Klicken. In Zukunft wird er ein Assistent sein, der ständig im Hintergrund läuft. Wenn sich der PC von einer „intelligenten Schreibmaschine“ zu einem agentischen System entwickelt, das jederzeit verfügbar ist, ändert sich das Wertversprechen. Ein 10.000-Dollar-Assistent, der täglich Aufgaben erledigt, ist nicht unlogisch – genau wie Smartphones, für die Menschen heute 2.000 Dollar ausgeben. Die Kategorie muss neu erfunden werden. Was Microsoft und Nvidia gemeinsam tun, ist die Neuerfindung des Personal Computers zum „Personal AI“.
Vor 10 Jahren ging Huang in die Automobilindustrie. Der eingebettete Controller eines Autos kostete etwa 29 Dollar. Nvidia wollte nicht um diese 29 Dollar konkurrieren, sondern das Auto in ein Robotik-Fahrzeug, ein autonomes Auto verwandeln. Zuerst musste es softwareprogrammierbar gemacht werden. Heute ist Hyperion überall. Nvidia hat das Auto neu erfunden. Das ist der Nvidia-Weg.
Optik- und Kupfer-Strategie
Zur Optik im Rechenzentrum erklärte Huang, dass man Kupfer so lange und so intensiv wie möglich nutzen sollte. Optik sollte nur dort eingesetzt werden, wo sie zwingend erforderlich ist. Kupfer begann bei sehr kurzen Distanzen, aber dank der von Nvidia erfundenen SerDes kann das Unternehmen heute die längsten SerDes-Strecken der Geschichte vorweisen. Nvidia hat die gesamte Backplane eines Racks mit Kupfer betrieben – niemand hielt das für möglich. Nvidia hat Kupfer „sexy“ gemacht.
Kupfer ist zuverlässig und extrem kosteneffizient. Optik sollte nur bei Distanzen über einem Meter eingesetzt werden. Die von Nvidia gebauten Rechenzentren wachsen: von 18.000 GPUs (Ampere) über 100.000 (Hopper) bis hin zu 250.000 (Blackwell). Vera Rubin erfordert mindestens eine halbe Million GPUs. Dafür ist Spectrum 6 konzipiert – der weltweit erste 800-Gigabit-CPO (Co-Packaged Optics), der für die Skalierung von KI-Fabriken mit Millionen von Systemen ausgelegt ist. Hier hat Kupfer keine Chance mehr.
Nvidia skaliert „up“ mit Kupfer, „out“ und „across“ mit Optik. Das Unternehmen benötigt daher große Mengen an Kupfer, Steckverbindern und Optik, weshalb Nvidia Partnerschaften mit Coherent, Lumentum und Corning eingegangen ist. Die Partnerschaft mit Marvell dient dazu, die Welt auf die Skalierung mit Nvidia vorzubereiten.
Inferenz und Agenten-Adoption
Inferenz wird in PCs Einzug halten, sobald RTX Spark verfügbar ist. Ein Agent ist gleichbedeutend mit nützlicher KI. Dieser Agent wird Betriebssysteme und Tools wie Adobe Photoshop oder Autodesk nutzen. Er ist endlich schlau genug, Werkzeuge zu bedienen, um Menschen bei der Arbeit zu unterstützen. Die meisten Nutzer kennen nur einen Bruchteil der Funktionen von Adobe Photoshop oder Premiere. Agenten werden die Handbücher dieser Tools lesen und zu Experten für jede Software werden. Nutzer müssen nur noch fragen, was sie tun wollen – der Agent erledigt den Rest. Inferenz ist Denken. Wenn Agenten kommen, nimmt Inferenz Fahrt auf.
Im Rechenzentrum sind Nvidia-Systeme heute für Training im Einsatz, werden aber später mit Vera Rubin für Inferenz genutzt. Das ist die Schönheit der Nvidia-Systeme: Sie sind vollständig fungibel. Forscher steigern ihre Trainingsleistung jedes Jahr um Faktoren, anstatt an ein für Inferenz oder Training starres System gebunden zu sein. Die Fungibilität erhöht den Nutzen, senkt die TCO (Total Cost of Ownership) und verlängert die Lebensdauer. Huang ist überzeugt, dass Nvidias Plattformen die weltweit niedrigsten TCOs bieten.
Wahrnehmung und Adoption von KI
Auf die Frage, wie man die amerikanische Öffentlichkeit für KI gewinnen kann, entgegnete Huang, dass KI in Asien geliebt, in den USA jedoch oft negativ wahrgenommen wird. Dies liege an einer Rhetorik, die darauf abzielt, Unternehmen zu positionieren oder regulatorische Vorteile zu sichern. Vergleiche von KI mit Nuklearwaffen seien lächerlich und kontraproduktiv. Es liegt in der Verantwortung der Industrie, sichere und nützliche Produkte zu bauen. Huang betont, dass er seinen eigenen Kindern rät, KI zu nutzen, um nicht den Anschluss zu verlieren. Das ist der ultimative Test für sein Vertrauen in die Technologie.
Wirtschaftlichkeit pro Gigawatt
Zur Frage der Kosten pro Gigawatt – von 50 Milliarden auf 90 Milliarden Dollar – fragte Huang: Was ist besser für ein 1-Gigawatt-Rechenzentrum: Computer im Wert von 50 Milliarden oder von einer Billion Dollar? Eine Billion ist besser, sofern die Energieeffizienz stimmt. Es geht um die Leistung pro Watt (Perf per Watt). Nvidia ist exzellent darin, durch Co-Design das Maximum aus dem gesamten Rack und dem Software-Stack herauszuholen. Perf per Watt ist die wichtigste Kennzahl einer KI-Fabrik der Zukunft.
Begründung der Segmentberichterstattung
Huang erklärte, dass die neue Segmentierung dazu dient, die Funktionsweise des Geschäfts zu verdeutlichen. Das Geschäft unterteilt sich in drei Bereiche: Erstens die Hyperscaler, bei denen Nvidia Kunden bringt. Zweitens interne Arbeitslasten der Hyperscaler wie Suche, Datenverarbeitung und Spracherkennung. Drittens KI-Unternehmen wie Anthropic, OpenAI und XAI. Die zweite Kategorie sind OEMs und NeoClouds (NCPs), die Nvidia-Referenzarchitekturen benötigen, um schnell zu skalieren. Die dritte Kategorie umfasst Robotik und Edge-Computing. Diese Granularität hilft Investoren, die verschiedenen Wachstumstreiber besser zu verstehen.
Produktivitätsnachweis
Huang untermauerte das KI-Potenzial mit Daten: Die weltweite Software-Entwickler-Basis mit einem Volumen von 3 bis 4 Billionen Dollar an Personalkosten produzierte 2023 etwa 500 Millionen Software-Submits. Anfang 2026 stieg diese Zahl auf 1,4 Milliarden pro Jahr. Die Produktivität hat sich verdreifacht. Unternehmen werden Software-Ingenieure nicht entlassen, sondern mehr einstellen, um die enorme Produktivität und Problemlösungskapazität der KI zu nutzen. Code ist gleichbedeutend mit BIP-Wachstum und Innovation.
Unterstützung der Lieferkette
Huang betonte, dass Nvidia die Unterstützung des gesamten Ökosystems genießt, um ein robustes Wachstum zu ermöglichen. Trotz der Tatsache, dass die weltweite Lieferkette knapp ist, ist Nvidia in der Lage, das Wachstum deutlich über den bisherigen Prognosen zu halten.