Cerebras-CEO: „Niemand will langsame KI“ – Ein 20-Milliarden-Dollar-Deal mit OpenAI, die AWS-Strategie und warum dies keine Blase ist
Bloomberg Tech 2026, San Francisco — 4. Juni 2026
Zwei Wochen nach dem, was Cerebras-CEO Andrew Feldman als den größten Halbleiter-Börsengang der Geschichte bezeichnete, stellte er sich auf der Bloomberg Tech 2026 in San Francisco den Fragen von Tom Giles. Feldman erläuterte die kommerzielle Strategie des Unternehmens, die Partnerschaftsarchitektur mit Hyperscalern und seine eindeutige Einschätzung zur Frage, ob die Investitionen in die KI-Infrastruktur überhitzt sind. Die Antworten waren aufschlussreicher, als es die meisten Analystenkonferenzen in einem ganzen Quartal bieten.
Die Deals mit OpenAI und AWS sind der Bauplan, nicht die Ausnahme
Die wohl bedeutendste neue Information des Gesprächs betrifft Struktur und Umfang der kommerziellen Dynamik von Cerebras im Vorfeld des Börsengangs. Feldman bestätigte einen verbindlichen „Take-or-Pay“-Vertrag mit OpenAI im Wert von „über 20 Milliarden Dollar“, der etwa 45 Tage vor einer separaten Vereinbarung mit AWS unterzeichnet wurde. Zusammen etablieren diese beiden Transaktionen ein Geschäftsmodell, das laut Feldman darauf ausgelegt ist, auf andere Hyperscaler ausgeweitet zu werden – mit einer gezielten Ausnahme. „Wir sind jetzt dabei, die Komponenten anderer Anbieter für einen Teil des Problems und unsere Komponenten für einen anderen Teil zu nutzen, und zwar mit allen Mitgliedern der Community, also anderen Hyperscalern, die nicht Nvidia sind“, sagte er. Auf Nachfrage bestätigte er: „Also alle außer ihnen.“
Der AWS-Deal ist architektonisch interessant und verdient die Aufmerksamkeit von Investoren, da er offenlegt, wie Cerebras sich in bestehende Cloud-Infrastrukturen integrieren will, statt sie frontal anzugreifen. Der Kernansatz ist die Zerlegung der Inference-Last in zwei unterschiedliche Rechenaufgaben. Der erste Schritt – „Prefill“ genannt – verarbeitet die eingehende Anfrage und ist hochgradig parallelisierbar; hier leisten die auf Training optimierten Chips der Hyperscaler gute Arbeit. Der zweite Schritt – „Decode“, also die Generierung der eigentlichen Antwort – ist rein sequenziell, und genau hier spielt der Chip von Cerebras seinen Leistungsvorteil aus. „Wir können teilweise Ihr Training für das ‚Pre‘ nutzen und unsere großen Chips für das ‚Decode‘“, erklärte Feldman. „Das Ergebnis ist eine außergewöhnliche Lösung.“ Für Investoren bedeutet dies: Cerebras versucht nicht, die Infrastruktur der Hyperscaler komplett zu verdrängen, sondern schaltet sich in den latenzkritischsten und wertvollsten Teil der Inference-Pipeline ein.
Geschwindigkeit ist das Produkt – und der Marktvergleich ist bewusst drastisch
Feldman untermauerte das Argument der Geschwindigkeit mit einer Google-Studie aus dem Jahr 2009, die zeigt, dass selbst geringe Anstiege der Antwortlatenz das Nutzerengagement, die Kundenbindung und die Sitzungsdauer erheblich reduzieren – selbst dann, wenn die Nutzer die Verzögerung nicht bewusst wahrnehmen. Er übersetzte dies in ein direktes Marktgrößenargument: „Wie groß ist der Markt für langsame Suche? Wie groß ist der Markt für Dial-up-Internet?“ Er definierte Geschwindigkeit nicht als Leistungsmerkmal, sondern als das entscheidende Charakteristikum einer Produktkategorie. Cerebras behauptet, bei der Inference mehr als 15-mal schneller zu sein als die Konkurrenz. Peter Steinberger, der Entwickler von Open Claw, wurde mit der Aussage zitiert, die Nutzung von Cerebras sei für ihn „wie der Hammer von Thor“ für die Programmierproduktivität gewesen.
Das Leistungsversprechen des Unternehmens – mehr als 15-mal schneller als Alternativen – bleibt der zentrale Pfeiler seines kommerziellen Angebots, und die Erfolge bei OpenAI und AWS liefern eine signifikante Bestätigung durch Dritte. Ob dieser Leistungsvorsprung angesichts der Entwicklung konkurrierender Architekturen dauerhaft ist, bleibt eine berechtigte Frage, auf die das Interview nicht direkt einging.
25 Milliarden Dollar Auftragsbestand und das Argument gegen die Blase
Zur Frage, ob die Ausgaben für KI-Infrastruktur eine Blase bilden, lieferte Feldman das direkteste und empirisch fundierteste Argument: Cerebras verfügt derzeit über einen Auftragsbestand von mehr als 25 Milliarden Dollar, den kein Anbieter – einschließlich AMD und Nvidia – erfüllen kann. „Die Erbauer hinken der Nachfrage so weit hinterher, das ist absurd“, sagte er. Seine Einordnung historischer Blasen ist beachtenswert. „Historisch gesehen waren Blasen durch die Vorstellung geprägt: Wenn du es baust, werden sie kommen“, merkte er an und verwies auf den Glasfaserausbau in den späten 1990er Jahren und den Eisenbahnbau in den 1870er Jahren. „Das Ungewöhnliche an der KI ist derzeit, dass die Erbauer der Nachfrage so weit hinterherhinken.“ Er fügte hinzu: „Unsere Kunden und deren Kunden bewegen sich mit der Geschwindigkeit von Software, wir aber mit der Geschwindigkeit von Rechenzentrums-Immobilien.“
Der Auftragsbestand von 25 Milliarden Dollar ist, sofern er zutrifft, ein bedeutender Datenpunkt für den Sektor. Investoren sollten jedoch beachten, dass Feldman keine Aufschlüsselung der Zusammensetzung dieses Bestands lieferte und auch nicht den Zeitrahmen nannte, in dem dieser in Umsatz umgewandelt werden soll – was angesichts der langen Zyklen bei der Bereitstellung von Rechenzentren von wesentlicher Bedeutung ist.
Kundenkonzentration: Ein großer Kunde, dann ein noch größerer
Feldman ging mit der für ihn typischen Direktheit auf das Risiko der Kundenkonzentration ein. Vor dem OpenAI-Deal hatte Cerebras eine verbindliche Vereinbarung über 1 Milliarde Dollar mit G42, dem in den VAE ansässigen KI-Champion, die Ende 2023 unterzeichnet wurde. Als das Unternehmen Kapital aufnehmen wollte, wiesen Investoren auf die Abhängigkeit von einem einzigen Kunden hin. Dann unterzeichnete Cerebras den Vertrag mit OpenAI über mehr als 20 Milliarden Dollar und danach mit AWS. „Ich hatte früher einen, und jetzt habe ich immer noch einen. Nur ist er 20-mal größer“, sagte Feldman. Er setzte dies in Bezug zu Nvidias Konzentrationsprofil: „Nvidia machte im letzten Quartal etwa 68 Milliarden Dollar Umsatz, und vier Kunden machten die Hälfte davon aus. Das ist die Welt, in der wir spielen.“ Das Argument ist stichhaltig, auch wenn es das Konzentrationsrisiko nicht eliminiert, sondern innerhalb des Sektors normalisiert.
Er bot zudem eine nützliche neue Perspektive darauf, was einzelne Großkunden in der Praxis tatsächlich repräsentieren. G42 ist ein Cloud-Anbieter, der Universitäten, Ölunternehmen und Hunderte anderer Endnutzer im gesamten Ökosystem der VAE bedient. Die Rechennachfrage von OpenAI spiegelt letztlich Milliarden individueller Endnutzer wider. Die reine Anzahl der Kunden unterschätzt das tatsächliche Ausmaß der bedienten Endnachfrage.
Token-Ökonomie reift schneller als erwartet
Zur aufkommenden Frage nach Token-Limits, Preissensitivität und der unternehmerischen Zuweisung von KI-Rechenleistung nutzte Feldman einen Costco-Vergleich, der den Kern des Problems effizient trifft. Die frühe KI-Einführung in Unternehmen glich dem ziellosen Durchstreifen der Gänge eines Großmarktes – verschwenderisch und schlecht kalibriert. „Microsoft wachte eines Tages auf und sagte: Tokens sind teuer“, merkte er an und beschrieb die Erkenntnis als im Nachhinein offensichtlich. „Welche andere Ressource lassen wir jeden so viel nutzen, wie er will? Das ist von Anfang an einfach töricht.“ Der Markt lernt nun zu differenzieren: leistungsfähige Frontier-Modelle für Aufgaben, die die Kosten rechtfertigen, Open-Source-Alternativen für alles andere, wobei die interne Zuweisung die individuelle Produktivität widerspiegelt. Feldman sieht dies als eine gesunde und schnelle Normalisierung, nicht als ein Signal für eine nachlassende Nachfrage.
Engpässe bei Rechenzentren und das Versagen der Branche in der Community-Kommunikation
Feldman äußerte sich ungewohnt offen über das Versagen der KI-Branche, Unterstützung in der Bevölkerung für den Ausbau von Rechenzentren zu gewinnen. Die Einschränkung ist real – das Cloud-Angebot von Cerebras ist durch die Verfügbarkeit von Rechenzentren begrenzt, wie bei allen Hyperscalern –, aber er verortete einen großen Teil des politischen Widerstands in einem vermeidbaren Eigentor. „Wir hätten gute Nachbarn sein können. Wir hätten auf diese Gemeinden zugehen und deren Prozesse sowie lokale Behörden nutzen können, um Zustimmung und Unterstützung zu gewinnen.“ Er verwies auf das Versäumnis der Branche, Zahlen zur Schaffung von Arbeitsplätzen, Beiträge zur Steuerbasis und die kontraintuitive Tatsache zu kommunizieren, dass US-Rechenzentren zwischen fünf- und siebenmal weniger Wasser verbrauchen als die Mandelbauern in Kalifornien. „Wir sind vorgeprescht, ohne an die Gemeinden zu denken, in denen wir diese Rechenzentren platziert haben“, sagte er trocken. „Wir haben es vermasselt.“
Die Antwort von Cerebras bestand darin, Kapazitäten in Regionen mit reichlich und preiswertem Strom anzusiedeln: West-Texas, ländliche Teile von Utah, Teile von Louisiana, Niagara und Kanada generell. Die Logik ist simpel: Man folgt der Stromverfügbarkeit statt der Nähe zu Ballungszentren und transportiert die Tokens per Glasfaser. Es ist eine pragmatische Umgehungslösung für ein Problem, das die Branche selbst geschaffen hat und das noch nicht in großem Maßstab gelöst ist.
Die Frage „Spezialist vs. Generalist“ bleibt die richtige
Auf die unvermeidliche Frage, ob integrierte Allzweck-Architekturen irgendwann spezialisierte Hardware verdrängen werden, bot Feldman eher einen analytischen Rahmen als eine werbliche Antwort. Das Ergebnis, so argumentierte er, werde vollständig durch die Beschaffenheit der Ressourcenlandschaft bestimmt. „Wenn der Ressourcenstrang, auf den der Spezialist abzielt, sehr groß ist, dann dominiert der Spezialist und gewinnt. Wenn die Ressourcenlandschaft aus vielen kleinen, unterschiedlichen Taschen besteht, gewinnt der Generalist.“ Er nannte die Dominanz der GPU bei diskreter Grafik als Sieg des Spezialisten, den Erfolg von ARM gegenüber x86 im Mobilbereich als weiteres Beispiel und die letztliche Breite der x86-Architektur als Sieg des Generalisten in fragmentierten Anwendungsfällen. Seine Ansicht ist, dass die KI-Inference – speziell das Decode-Problem – eine große und strukturell eigenständige Arbeitslast darstellt, die eine spezialisierte Architektur rechtfertigt. Ob dieser Ressourcenstrang groß genug bleibt, während die Modell-Effizienz steigt und der Hardware-Wettbewerb zunimmt, ist das zentrale langfristige Risiko für die These von Cerebras – eine Frage, auf die Feldman nicht direkt einging.