Cerebras Systems: CEO enthüllt 25-Milliarden-Dollar-Auftragsbestand und erklärt, warum die KI-Blase ein Mythos ist
4. Juni 2026 – Bloomberg Tech 2026, San Francisco
Der größte Halbleiter-Börsengang und die Lösung eines 75 Jahre alten Chip-Problems
Tom Giles: Andrew, vor gerade einmal zwei Wochen hatten Sie einen großen Auftritt.
Andrew Feldman: Ja, der bislang größte Börsengang des Jahres.
Tom Giles: Der größte Halbleiter-Börsengang aller Zeiten. Wenn meine Rechnung stimmt, sind Sie schon lange in der Branche tätig. Ich beobachte sie schon sehr lange. Wir sehen nicht viele Chip-Startups, und noch weniger schaffen es an die Börse. Wie verändert KI das?
Andrew Feldman: Nun, zunächst einmal sind Chips eine extrem schwierige Angelegenheit. Die meisten von uns sind entweder zu alt geworden oder bereits gestorben. Die Herstellung ist für uns hier nicht teuer. Das hier ist, was wir gebaut haben. [Andrew Feldman hält den massiven Cerebras Wafer-Scale Engine Chip in die Höhe]. Es ist der größte Chip, der je hergestellt wurde. Danke. Sie klatschen für große Chips – ja, das ist mal eine Abwechslung. Es hat eine halbe Milliarde Dollar und zehn Jahre meines Lebens gekostet, ihn funktionsfähig zu machen. Und das Ergebnis war der schnellste KI-Prozessor, der je gebaut wurde. Wir haben ein Problem gelöst, das in der Computerindustrie seit 75 Jahren ungelöst war: wie man einen solch großen Chip baut. Wir haben es gelöst, wir haben ein Produkt geliefert, und wir waren so stolz. Wir haben das im August 2019 angekündigt, und es hat absolut niemanden interessiert. Niemanden. Die Welt brauchte eine Weile, um aufzuholen.
Andrew Feldman: Ab 2025 wurden die KI-Modelle so intelligent, dass die Menschen begannen, KI tatsächlich zu nutzen. Und sobald Menschen KI nutzen, zählt Geschwindigkeit. Wir nutzen KI vor allem für die Inferenz. Und was wir tun, ist die weltweit schnellste Inferenz – nicht nur ein bisschen, sondern um mehr als das 15-Fache. So sind wir an diesen außergewöhnlichen Punkt gelangt, an dem wir vor zwei Wochen an die Börse gegangen sind.
Disaggregation der Inferenz und die AWS-Partnerschaft
Tom Giles: Im Vorfeld haben Sie einige bedeutende Kunden gewonnen, darunter AWS. Ich finde diese Beziehung faszinierend, weil sie beispielhaft dafür ist, wie Sie mit Inferenz umgehen und den Prozess disaggregieren, oder? AWS Trainium übernimmt einen Teil, und Sie übernehmen den Inferenz-Teil, bei dem die Dekodierung stattfindet. Sprechen Sie ein wenig darüber, und noch wichtiger: Inwiefern ist das ein Modell für die Zusammenarbeit mit anderen Hyperscalern?
Andrew Feldman: Wir hatten ein ziemlich gutes Quartal. Wir haben einen Deal im Wert von über 20 Milliarden Dollar mit OpenAI abgeschlossen – eine verbindliche Take-or-Pay-Vereinbarung. 45 Tage später unterzeichneten wir einen großen Vertrag mit AWS. Als Computerarchitekt versucht man meist, ein Problem zu betrachten und sich zu überlegen, welche Maschine dafür die richtige ist. Sollte man die Maschine selbst entwerfen? Können wir die Maschine eines anderen nutzen? Was wir 2015 und 2016 sahen, war das Aufkommen einer neuen Arbeitslast. Wir dachten uns: Diese Arbeitslast wird viel Rechenleistung verschlingen. Diese neue KI wird eine außergewöhnliche Menge an Rechenleistung fressen. Wir haben damals zwei konträre Wetten abgeschlossen. Erstens: Wir bauen dedizierte Hardware dafür. Und zweitens: Wir bauen nichts, das wie eine GPU aussieht. Wir fangen bei null an und bauen etwas völlig anderes.
Andrew Feldman: Beide Male hielten uns die Leute für verrückt, aber wie sich herausstellte, waren wir nicht am Ende. Wenn man zehn Jahre vorspult: Es gibt derzeit eine enorme Nachfrage nach Inferenz, weil die KI seit etwa 2025 so intelligent geworden ist, dass sie wichtige Aufgaben erledigen kann. Wir nutzen sie immer intensiver. Wir haben uns also erneut die Arbeit angesehen. Was ist der Kern des Inferenzproblems? Es besteht aus zwei Teilen. Ein Teil ist die Verarbeitung des Prompts. Lassen Sie sich nicht täuschen – wir erfinden oft komplizierte Namen ohne Grund, es ist erstaunlich. Wir nennen das jetzt „Pre-fill“, ohne besonderen Grund. Es ist lediglich die Verarbeitung des Prompts. Und dann gibt es den zweiten Teil: die Generierung der Antwort. Wir nennen den ersten Teil Pre-fill und den zweiten Teil Decode.
Andrew Feldman: Es stellt sich heraus, dass sie sehr unterschiedliche Anforderungen an die Rechenleistung haben. Wir dachten uns also, dass es Maschinen gibt, die bei diesem Pre-fill besser sind als wir. Es ist ein parallelisierbares Problem. Es hat grundlegend andere Eigenschaften als die Dekodierung, die ein rein sequenzieller Prozess ist. Mit dieser Beobachtung gingen wir zu AWS und sagten: Wir können euren Trainium-Chip für den Pre-fill nutzen und unseren großen Chip für die Dekodierung. Das Ergebnis ist eine außergewöhnliche Lösung. Sie wurde sehr gut aufgenommen. Wir sind jetzt dabei, für einen Teil des Problems die Komponenten anderer zu nutzen und für den anderen Teil unsere eigenen – und zwar mit allen Mitgliedern der Community, also allen anderen Hyperscalern außer Nvidia. Also jeder außer ihnen.
Der Kampf zwischen Spezial- und Generalisten-Chips
Tom Giles: Ich möchte darauf gleich zurückkommen. Wir sprachen von Disaggregation, aber ist es in der Chip-Herstellung nicht unvermeidlich, dass Generalisierung und die Abkehr von einem disaggregierten Ansatz am Ende gewinnen? Ist das nicht fast zwangsläufig, und was passiert, wenn das der Fall ist?
Andrew Feldman: Nein. Ich denke, der Kampf zwischen Spezialisten und Generalisten ist ein sehr interessanter. Ob in der afrikanischen Savanne oder bei kleinen Unternehmen, die gegen große antreten: Was bestimmt, ob der Spezialist den Generalisten schlägt oder umgekehrt, ist die Beschaffenheit der Ressourcenlandschaft. Wenn die Ader an Ressourcen, auf die der Spezialist abzielt, sehr groß ist, dann dominiert der Spezialist und gewinnt. Wenn die Ressourcenlandschaft aus vielen kleinen, unterschiedlichen Taschen besteht, gewinnt der Generalist.
Andrew Feldman: Wo hat x86 gewonnen? In einer Landschaft voller verschiedener Anwendungsfälle. Wo hat die GPU gewonnen? Bei diskreter Grafik, einer einzelnen, spezifischen Arbeitslast. Wo hat die x86-Maschine gewonnen? Überall. Warum hat sie nicht auch beim Mobiltelefon gewonnen? Weil ARM etwas baute, das zu 100 Prozent darauf fokussiert war, mit Batterien und extrem niedrigem Stromverbrauch zu laufen. Das sind zwei Beispiele, bei denen der Spezialist den Generalisten absolut abgehängt hat. In anderen Fällen reichte die Ressourcenlandschaft nicht aus. Branchenvertreter, mich eingeschlossen, versuchten, einen Spezialisten zu bauen. Es gab nicht genug zu holen. Also haben wir uns ein wenig durchgeschlagen und sind verhungert, während die Generalisten alle Ressourcen aufgesaugt haben. Was wir 2015 sahen, war, dass der Aufstieg der KI so viel Nachfrage nach Rechenleistung erzeugen würde, dass sie am besten von einem Spezialisten bedient werden könnte. Das war eine der entscheidenden Beobachtungen.
Ist KI eine Blase? Der 25-Milliarden-Dollar-Auftragsbestand
Tom Giles: Der andere große Kunde, den Sie erwähnten, OpenAI, ist einzigartig strukturiert. Wir sehen, dass OpenAI und andere LLM-Anbieter immer kreativer werden müssen, wie sie diese Rechenleistungsverträge finanzieren und bezahlen, wie bei Ihrem, aufgrund der enormen Nachfrage, die Sie erwähnen und die uns überall umgibt. Hunderte Milliarden Dollar werden ausgegeben. Haben Sie Bedenken hinsichtlich ihrer Fähigkeit, die Einnahmen zu generieren und die Finanzierung aufzubringen, die sie zur Erfüllung ihrer Verpflichtungen benötigen? Vielleicht anders gefragt: Glauben Sie, dass es eine KI-Blase gibt? Können die Marktführer weitermachen? Ist das Wachstum nachhaltig und wird sich die Nachfrage der Nutzer schnell genug materialisieren?
Andrew Feldman: Wissen Sie, wir sind beide schon lange dabei. Das ist nicht unser erstes Rodeo. Einer der wenigen Vorteile, nicht mehr jung zu sein, ist, dass es eben nicht das erste Rodeo ist. Ich denke Folgendes: Historisch gesehen waren Blasen durch die Vorstellung geprägt: „Wenn du es baust, werden sie kommen.“ Ich habe im Publikum einige Leute erkannt, die in den späten 90ern bei mir waren, als wir Datennetzwerkausrüstung bauten. Die Leute verlegten riesige Mengen an Glasfaserkabeln unter der Annahme, dass die Nachfrage kommen würde. Ökonomen kehren – aus Gründen, die mir unklar sind – gerne zu den Eisenbahnen und den Analogien aus den 1870er Jahren zurück. Auch dort galt: Wenn man es baut, werden sie kommen.
Andrew Feldman: Das Ungewöhnliche an KI ist derzeit: Die Erbauer sind so weit hinter der Nachfrage zurück, dass es absurd ist. Wir haben einen Auftragsbestand von mehr als 25 Milliarden Dollar an Nachfrage. Niemand von uns – weder wir noch AMD noch Nvidia – kann mit der Nachfrage Schritt halten, die von den Endnutzern ausgeht. In vielerlei Hinsicht ist das das Gegenteil einer Blase. Wir jagen unseren Kunden hinterher, und deren Kunden bewegen sich mit der Geschwindigkeit von Software, während wir uns mit der Geschwindigkeit von Immobilien und Rechenzentren bewegen. Wir hinken also hinterher.
Beschränkungen bei Rechenzentren und Community-Beziehungen
Tom Giles: Sprechen Sie darüber noch etwas mehr. Sie hatten einen Podcast mit einem meiner Kollegen von Bloomberg Intelligence, in dem Sie sagten, dass der Engpass derzeit der Zugang zu Rechenzentren sei. Wir sehen im ganzen Land, besonders in einem Wahljahr, viel Widerstand – „nicht in meinem Hinterhof“. Wie gehen Sie damit um?
Andrew Feldman: Das sind zwei verschiedene Dinge. Erstens: Wir alle sind durch Rechenzentren eingeschränkt. Wenn Sie mit uns sprechen: Wir haben eine Cloud, aber wir sind durch die Bereitstellungsphasen der Rechenzentren limitiert. AWS ist durch seine Bereitstellung limitiert. Jeder ist durch seine Rechenzentren eingeschränkt. Das ist Punkt eins. Punkt zwei ist ein separates Problem: Warum ist die Welt wütend auf uns? Sie sind wütend, weil wir Dummköpfe waren. Nicht wir speziell, sondern unsere Branche. Wir hätten auf diese Gemeinden zugehen und gute Nachbarn sein können. Wir hätten ihre Prozesse und lokalen Regierungen nutzen können, um Zustimmung und Unterstützung zu gewinnen. Wir hätten unsere Kosten decken und ausreichend Mittel in die Entwicklung dieser Rechenzentren investieren können, damit die lokale Gemeinschaft nie für einen Cent aufkommen muss.
Andrew Feldman: Wir hätten kommunizieren können, wie ein Rechenzentrum mit 150 bis 200 Megawatt – was nicht riesig ist – allein während der Bauphase über mehrere Jahre Tausende von Arbeitsplätzen schafft. Wir hätten aufklären können, dass wir in einem riesigen Rechenzentrum weniger Wasser verbrauchen als in einem kleinen Restaurant. Wissen Sie, in den gesamten USA verbrauchen Rechenzentren weniger Wasser als die Mandelanbauer in Kalifornien? Nicht nur ein- oder zweimal weniger, sondern fünf- bis siebenmal weniger. Was wir getan haben, ist: Wir sind vorgeprescht. Vielleicht ist unser IQ als Branche zu niedrig, und wir sind besser darin, mit Maschinen zu sprechen als mit Menschen, aber wir sind vorgeprescht, ohne an die Gemeinden zu denken, in denen wir diese Rechenzentren platziert haben.
Andrew Feldman: Brad Smith von Microsoft hat einen Aufruf an alle gestartet. Es war reiner Menschenverstand. Er hatte fünf durchdachte Säulen, und letztlich lief es darauf hinaus: Behandelt sie wie eure Nachbarn. Es ist absolut möglich, in eine Gemeinde zu gehen, ein Rechenzentrum zu bauen, und die Gemeinde liebt einen dafür. Man schafft Arbeitsplätze, die Steuerbasis steigt erheblich. Wir haben schweres Gerät vor Ort, wir können einen Baseballplatz für die Schule bauen. Als Branche hätten wir einen besseren Job machen können, und wir haben es vermasselt. Wir haben die Gemeinde nicht für uns gewonnen.
Tom Giles: Und was werden Sie anders machen?
Andrew Feldman: Ich bin kein Rechenzentrums-Erbauer. Ich bin ein Käufer. Wir engagieren uns also in den Gemeinden, in denen wir Rechenzentren haben. Wir arbeiten mit der lokalen Handelskammer zusammen. Wir engagieren uns so gut wir können in der Gemeinde. Wir haben zudem Rechenzentren in ländlichen Gebieten gewählt, die weit weg liegen. Man hört manchmal, dass wir in den USA nicht genug Strom hätten. Das stimmt nicht. Wir haben reichlich Strom. Er ist nur nicht in der Nähe von Ballungszentren. Es ist also etwas teurer, ihn zu erschließen. Unser Strom ist in West Texas, in ländlichen Gebieten von Utah, in Teilen von Louisiana, wo niemand wohnen will. Unser Strom ist in Niagara. Kanada hat mehr Strom, als sie verbrauchen können. Sie haben nicht nur Wasserkraft, sie haben auch Erdgasvorkommen. Man muss dorthin gehen, wo der Strom ist. Ich denke, man muss sich überlegen, wie man die Ergebnisse – die Tokens – über Glasfaserkabel herausbekommt. Die muss man verlegen. Aber ich glaube nicht, dass es ein Entweder-oder ist. Wir haben als Branche einfach einen schlechten Job dabei gemacht, auf die Gemeinden zuzugehen und gute Nachbarn zu sein.
Kundenkonzentration und Skalierung mit G42 und OpenAI
Tom Giles: Wenn Sie auf Ihre Kunden schauen: Wir haben bei Ihrer frühen, wichtigen Beziehung zu G42 gesehen, dass Sie Ihre Kundenbasis diversifizieren müssen. Das haben Sie mit Meta und AWS getan. Wo sollten wir nach den nächsten großen Erfolgen Ausschau halten, und wie lange wird es dauern, bis wir das sehen?
Andrew Feldman: Es ist sehr kurios, und es kam mir nie in den Sinn. Im privaten Bereich sagt niemand: „Du hast diesen riesigen Kunden, das ist schlecht.“ Wir werden für einen so signifikanten Prozentsatz Ihres Umsatzes verantwortlich sein, dass es unsere gesamte Produktion ausmacht. Ende 2023 haben wir einen 1-Milliarden-Dollar-Deal mit dem KI-Champion der VAE, G42, abgeschlossen. Sie waren weltweit einer der ersten Akteure. Wir gingen an den Markt, um Kapital zu beschaffen, und die Leute sagten: „Ihr habt nur einen großen Kunden.“ Dann gewannen wir OpenAI, und sie schlossen einen Deal über mehr als 20 Milliarden Dollar ab. Und die Leute sagten: „Jetzt habt ihr immer noch nur einen großen Kunden.“ Früher hatte ich einen, jetzt habe ich immer noch einen, nur ist er 20-mal größer. Es ist einer der größten Deals in der Geschichte des Silicon Valley. Und dann gewannen wir AWS.
Andrew Feldman: Ich glaube, die Wahrheit ist: Erstens wird diese Branche sehr, sehr große Kunden haben. Nvidia hat im letzten Quartal, was, 68 Milliarden Dollar umgesetzt? Und vier Kunden machten die Hälfte davon aus. Das ist die Welt, in der wir spielen. Es wird also außergewöhnliche Kundenkonzentrationen geben. Und einige dieser Kunden bedienen tatsächlich Hunderte anderer Kunden. G42 ist eine Cloud für das Ökosystem der VAE. Es gibt Universitäten in Abu Dhabi, Ölgesellschaften in Dubai. Es gibt Hunderte verschiedener Nutzer, aber sie aggregieren sich an einem Punkt, und sie sind ein Kunde. Genauso ist es, wenn wir an OpenAI verkaufen: An wen verkaufen wir eigentlich? Wir verkaufen an Milliarden von Einzelnutzern, die die Rechenleistung verwenden.
Geschwindigkeit als Burggraben und die Costco-Ära der Token-Ökonomie
Tom Giles: Ich würde gerne ein Gefühl dafür bekommen: OpenAI hat gerade ein Modell auf Basis von Cerebras eingeführt. Was sind erste Erkenntnisse daraus? Was sind die Takeaways und welche Metriken können Sie in Bezug auf die Leistung teilen – Tokens pro Sekunde oder was auch immer die Metrik ist?
Andrew Feldman: Was wir wissen – und Google hat das schon 2009 gezeigt – ist, dass selbst sehr kleine Änderungen in der Zeit, die es braucht, um eine Antwort zu erhalten, das Vergnügen am Dienst beeinflussen. Millisekunden mehr Geschwindigkeit führen zu unglaublich signifikanten Ergebnissen dabei, wie lange man bleibt und wie häufig man den Dienst nutzt, selbst wenn man sich dessen nicht bewusst ist. Wir wissen das. Und wenn man darüber nachdenkt: Wie groß ist der Markt für langsame Suche? Warum sollte es ihn geben? Wie groß ist der Markt für Dial-up-Internet? Wie viel müsste ich Ihnen zahlen, damit Sie Ihr Breitband-Internet kappen? Tausend im Monat? Wollen Sie langsames Internet zu Hause? Nein. Bei KI wird es genauso sein. Niemand will langsame KI.
Andrew Feldman: Wenn ich Sie bitte, acht Sekunden zu warten, bis eine Website geladen ist, werden Sie verrückt. Sobald eine Technologie fest in unserem Alltag verankert ist, wird die Geschwindigkeit, mit der man sie nutzt, fundamental. Und wenn man so viel schneller ist, spürt man das bei allem, was man tut. Der Entwickler von Open Coder, Peter Steinberger, sagte, die Nutzung unserer Technologie sei, als hätte man Thors Hammer in der Hand. So fühlte es sich für ihn als Programmierer mit unserer Geschwindigkeit an. Ihre Nutzer werden produktiver sein. Sie werden in einer Stunde mehr erledigen. Und dieser Vorteil kumuliert sich und wächst mit der Zeit. Das ist es, was Geschwindigkeit schon immer gebracht hat.
Tom Giles: Es gibt eine Preissensibilität, die sich gerade im Markt aufbaut. Früher hörten wir von „Token-Maximierung“, jetzt hören wir von Zählern und Limits. Ist das real, ist es weit verbreitet und verändert es das Tempo der Akzeptanz?
Andrew Feldman: Ich werde mich jetzt als alt outen. Ich erinnere mich, als Costco, der erste Lagerhaus-Laden, nach Palo Alto kam. Er eröffnete in Redwood City, und meine Mutter kaufte bei Costco genauso ein wie bei Safeway. Sie ging jeden Gang ab. Und wie Sie wissen, ist das bei Costco ein schrecklicher Fehler, denn man macht zwei Fehler, die jeweils 19 Dollar kosten, und am Ende hat man einen riesigen Eimer Mayonnaise, von dem man in diesem Moment dachte, es sei eine gute Idee. Zwei oder drei Jahre später kaufte niemand mehr so bei Costco ein. Man ging nach hinten, holte das billige Hähnchen, schaute auf seine Liste, ging dorthin, holte die große Schachtel Cupcakes für den Geburtstag des Kindes – man änderte sein Einkaufsverhalten komplett.
Andrew Feldman: Genau das passiert gerade mit Tokens. Am Anfang heißt es: „Hey, bedient euch!“ Und Microsoft wachte eines Tages auf und sagte: „Tokens sind teuer, wartet mal, wir können nicht jeden so viel Anthropic nutzen lassen, wie er will.“ Was für eine seltsame Beobachtung. Welche andere Ressource lassen wir jeden so viel nutzen, wie er will? Es ist von Anfang an unsinnig. Natürlich muss man Ressourcen in seinem Unternehmen zuteilen. Es gibt Leute, denen man aus dem Weg gehen sollte, weil sie bei allem unglaublich produktiv sind. Bei anderen muss man den Verbrauch messen. So funktioniert die Welt. Brauchen Sie Spark oder GPT-4 oder das High-End-Modell für jedes Problem? Man braucht keinen Ferrari, um zum Supermarkt zu fahren. Nutzen Sie ein kostengünstigeres Open-Source-Modell. Wir lernen gerade, wie man bei Costco einkauft. Wir lernen, dass wir diese Fülle haben, und wir lernen, wie man nicht diese 18-Dollar-Packung Mayonnaise kauft. Wir müssen einen Schritt zurücktreten und sagen: Okay, hier nutzen wir die teuren Modelle, und hier nutzen wir Open-Source-Modelle. Und hier sind die Leute, die wir den jeweiligen Töpfen zuteilen. Und so werden wir weitermachen. Ich glaube, das ist der Lernprozess, den wir gerade extrem schnell beobachten.
Cerebras Systems im Fokus
Die Wafer-Scale-Architektur und der physische Burggraben
In der Welt des High-Performance Computing werden das Training und die Inferenz von Künstlicher Intelligenz grundlegend durch die sogenannte „Memory Wall“ limitiert. Dieser Begriff beschreibt den Zeit- und Energieaufwand, der durch den Datentransport zwischen Speichermodulen und Rechenprozessoren entsteht. Die marktbeherrschende Architektur löst dies durch die Kopplung diskreter Grafikprozessoren mittels optischer Hochgeschwindigkeitsnetzwerke und High-Bandwidth-Memory. Cerebras Systems umgeht diesen physischen Flaschenhals vollständig. Durch die Nutzung eines kompletten Silizium-Wafers mit 46.225 Quadratmillimetern Fläche fungiert die Wafer-Scale-Engine als ein einziger, zusammenhängender Prozessor. Die aktuelle Iteration, die WSE-3, verfügt über 4 Billionen Transistoren und 900.000 auf Künstliche Intelligenz optimierte Rechenkerne. Die eigentliche architektonische Waffe sind jedoch die 44 Gigabyte an On-Chip-SRAM (Static Random-Access Memory). Indem die Modellgewichte direkt auf dem Wafer gespeichert werden, erreicht Cerebras eine Speicherbandbreite von 21 Petabyte pro Sekunde. Im Vergleich zu den Flaggschiff-Prozessoren der etablierten Konkurrenz bietet die WSE-3 deutlich mehr Rechenkerne und ein massives Vielfaches an Speicherbandbreite. Dieser strukturelle Unterschied ermöglicht es, Modelle mit extrem hoher Parameterzahl nativ auf einem einzigen System auszuführen, ohne die Latenznachteile einer Kommunikation zwischen verschiedenen Chips. Dies führt zu einem erheblichen Vorsprung beim Durchsatz von Tokens pro Sekunde bei kritischen Inferenz-Workloads.
Geschäftsmodell und Umsatzmonetarisierung
Cerebras verfolgt eine hybride Monetarisierungsstrategie, die sich aktiv von kapitalintensiven Hardwareverkäufen hin zu einem margenstärkeren Utility-Modell wandelt. Historisch gesehen wurde der Umsatz fast ausschließlich durch den Verkauf von CS-3-Supercomputing-Systemen an staatliche Stellen und nationale Forschungslabore generiert. Heute zweigt sich das Geschäftsmodell auf. Das Unternehmen sichert sich Vorabkapital durch diskrete Hardware-Deployments, erzielt jedoch wiederkehrende Erträge durch Support- und Wartungsverträge, die typischerweise 15 % bis 20 % des ursprünglichen Hardwarepreises pro Jahr ausmachen. Darüber hinaus schwenkt Cerebras aggressiv auf ein AI-as-a-Service-Modell über sein AI Model Studio um. Diese cloudbasierte API für Inferenz und Training ermöglicht es Unternehmen, auf Wafer-Scale-Rechenleistung zuzugreifen, ohne hohe Investitionskosten (CapEx) tätigen zu müssen. Gleichzeitig lizenziert das Unternehmen seinen proprietären Software-Stack als eigenständiges Produkt für Unternehmenskunden. Dieser strategische Wandel soll die inhärente Zyklizität des Halbleiter-Hardwaregeschäfts glätten und eine nachhaltige Ausweitung der Bruttomarge über das Basisniveau von 40 % bis 45 % bei direkten Hardware-Deployments hinaus vorantreiben.
Kundenkonzentration und Nachfragetreiber
Der kritischste Analysepunkt für Cerebras ist die extreme Kundenkonzentration. Während seiner Zeit als privates Unternehmen agierte der Konzern quasi als exklusiver Hardware-Lieferant für die Vereinigten Arabischen Emirate. Einheiten wie G42 und die Mohamed bin Zayed University of Artificial Intelligence machten zeitweise bis zu 86 % des Gesamtumsatzes aus – eine Abhängigkeit, die erhebliche geopolitische und regulatorische Risiken barg. Das kommerzielle Narrativ änderte sich jedoch Ende 2025 grundlegend, als OpenAI einen mehrjährigen Rechenleistungsvertrag im Wert von über $20 Milliarden unterzeichnete, ergänzt durch ein Betriebsmittelkredit in Höhe von $1 Milliarde. Diese Transaktion veränderte die Entwicklung des Unternehmens fundamental und lieferte eine definitive technische Validierung durch den anspruchsvollsten Entwickler von Basismodellen weltweit. Zudem verpflichtete sich Amazon Web Services, Cerebras-Hardware ab der zweiten Jahreshälfte 2026 in seinen Rechenzentren einzusetzen. Während der Auftragsbestand eine beispiellose Umsatzsichtbarkeit bietet, ersetzt er faktisch die staatliche Konzentration durch eine unternehmerische. Sollte der Ankerkunde seine Rechenstrategie ändern, Inferenz-Workloads intern verlagern oder wieder auf herkömmliche Grafikprozessoren setzen, drohen Cerebras signifikante Umsatzeinbußen.
Lieferkettenarchitektur und Foundry-Abhängigkeit
Unter der architektonischen Differenzierung verbirgt sich eine prekäre Abhängigkeit in der Lieferkette. Cerebras ist ein reiner fabless Halbleiterdesigner, der für die Wafer-Fertigung vollständig auf die Taiwan Semiconductor Manufacturing Company angewiesen ist. Die WSE-3 wird im 5-Nanometer-Prozess gefertigt, für die nächste Generation WSE-4 ist der 3-Nanometer-Knoten vorgesehen. Im Gegensatz zu etablierten Technologiekonzernen, die über enorme Einkaufsmacht und Priorität bei der Kapazitätszuteilung verfügen, macht Cerebras nur einen Bruchteil des gesamten Foundry-Volumens aus. Das Unternehmen besitzt keine formalisierten langfristigen Liefer- oder Kapazitätszusagen der Foundry. Jede Störung bei der Wafer-Zuteilung, ungünstige Preisanpassungen oder geopolitische Spannungen in Taiwan würden die Fähigkeit des Unternehmens, seinen gewaltigen Auftragsbestand abzuarbeiten, sofort beeinträchtigen. Zudem bringt die Physik der Wafer-Scale-Fertigung spezifische Herausforderungen bei der Ausbeute (Yield) mit sich. Da kein Silizium-Wafer völlig frei von Defekten ist, umgehen die Ingenieure von Cerebras dies, indem sie redundante Rechenkerne auf der Oberfläche ätzen und Software-Routing nutzen, um physische Unvollkommenheiten zu umgehen. Während diese elegante Lösung das Yield-Problem löst, erfordert sie hochspezialisierte Fertigungs- und Packaging-Techniken, die alternative Bezugsquellen stark einschränken.
Wettbewerbsumfeld und Ökosystem-Dynamik
Der Markt für KI-Beschleuniger, der für 2026 auf über $200 Milliarden geschätzt wird, unterliegt der absoluten Hegemonie von Nvidia. Der Platzhirsch beherrscht etwa 80 % des Marktes für Rechenzentrums-Beschleuniger – eine gefestigte Position, die durch mehr als ein Jahrzehnt der Entwicklerbindung an die proprietäre Softwareplattform abgesichert ist. Advanced Micro Devices fungiert als primäre Handelsalternative und erreicht mit seiner Instinct-Beschleunigerserie einen Marktanteil zwischen 5 % und 7 %. Die eigentliche langfristige Bedrohung für den freien Markt entsteht jedoch durch die Hyperscaler selbst. Interne Spezialchips wie Googles Tensor Processing Unit, Amazons Trainium und proprietäre Chips, die in Partnerschaft mit Broadcom und Marvell entwickelt wurden, absorbieren massiv interne Workloads. Innerhalb des Startup-Ökosystems kam es im Dezember 2025 zu einer strukturellen Neuausrichtung, als Nvidia Groq für $20 Milliarden übernahm. Groq, das ebenfalls stark auf SRAM setzte, um Inferenzgeschwindigkeiten zu maximieren, konkurrierte direkt mit Cerebras um latenzkritische Workloads. Mit der Integration von Groq in das dominante Ökosystem bleibt Cerebras der am besten kapitalisierte unabhängige Anbieter radikaler High-Bandwidth-Architekturen im großen Maßstab, steht jedoch unter anhaltendem Druck durch spezialisierte Hardware-Herausforderer wie SambaNova und Tenstorrent.
Neue Produkttreiber und zukünftige Entwicklung
Das zukünftige Wachstum hängt maßgeblich von der erfolgreichen Implementierung der WSE-4-Architektur ab. Der Übergang zum 3-Nanometer-Prozess wird es Cerebras ermöglichen, exponentiell mehr Transistoren auf einem einzelnen Wafer unterzubringen, was gleichzeitig den Stromverbrauch pro generiertem Token senkt und den Rechenspielraum erweitert. Darüber hinaus integriert das Unternehmen aggressiv Flüssigkeitskühlsysteme direkt auf Chipebene im Rack-Format – eine zwingende physische Evolution angesichts der immensen thermischen Dichte, die beim Betrieb eines kompletten Wafers unter Volllast entsteht. Über die reine Silizium-Performance hinaus liegt der primäre Wachstumskatalysator in der Software-Ebene. Die Compiler-Software des Unternehmens muss beweisen, dass sie Open-Source-Modelle und weit verbreitete Frameworks nahtlos verarbeiten kann, ohne dass Entwickler ihre Codebasis grundlegend anpassen müssen. Der Erfolg des bevorstehenden Amazon Web Services-Deployments wird hier als definitiver Lackmustest dienen. Wenn Unternehmensentwickler Modelle mit riesigen Parameterzahlen ebenso mühelos auf einer gehosteten Cerebras-Instanz bereitstellen können wie auf einem herkömmlichen Cluster, erweitert sich der adressierbare Gesamtmarkt erfolgreich von Elite-Forschungslaboren hin zu Mainstream-Unternehmensanwendungen.
Erfolgsbilanz des Managements
Die Führungsebene, angeführt von CEO Andrew Feldman und CTO Sean Lie, verfügt über einen ausgezeichneten operativen Hintergrund in der Halbleiterarchitektur. Das Team gründete und verkaufte zuvor das Server-Infrastrukturunternehmen SeaMicro an Advanced Micro Devices und erwarb sich damit hohe Glaubwürdigkeit im Bereich High-Performance Computing. Ihre Amtszeit bei Cerebras ist geprägt von der Umsetzung einer technischen Vision, die die breitere Halbleiterindustrie weitgehend als physisch unmöglich abtat. Die erfolgreiche Bewältigung der thermischen Ausdehnung, der Stromversorgung und des Defekt-Routings eines Wafer-Scale-Chips ist eine objektiv monumentale Ingenieursleistung. Zudem bewies das Management Ende 2025 außergewöhnliche strategische Agilität. Angesichts existentieller regulatorischer Hürden bezüglich des Engagements im Nahen Osten vor einem geplanten Börsengang schwenkte die Führung aggressiv um, sicherte sich den transformativen OpenAI-Vertrag und de-riskierte damit erfolgreich den Börsengang für 2026. Der Betrieb als börsennotiertes Unternehmen bringt jedoch völlig neue Anforderungen mit sich. Der Übergang von reiner Forschung und Entwicklung zu skalierten globalen Deployments, komplexem Lieferkettenmanagement und der finanziellen Quartals-Execution wird die operative Bandbreite des Führungsteams rigoros auf die Probe stellen.
Das Fazit
Cerebras Systems stellt die kühnste architektonische Abweichung in der Landschaft der KI-Halbleiter dar. Indem das Wafer-Scale-Paradigma die „Memory Wall“ direkt adressiert, liefert es nachweisbare Vorteile bei Durchsatz und Latenz für die anspruchsvollsten Inferenz-Workloads der Branche. Die Sicherung eines massiven mehrjährigen Auftragsbestands beim führenden Entwickler von Basismodellen bietet eine beispiellose Validierung der zugrunde liegenden Technologie und untermauert einen klaren Pfad zu einer außergewöhnlichen Umsatzbeschleunigung in den kommenden Zyklen.
Umgekehrt sind die strukturellen Risiken dieses Wachstumsprofils erheblich. Die kommerzielle Basis hat lediglich die staatliche Abhängigkeit gegen eine Konzentration auf einen einzelnen Großkunden getauscht, was das Unternehmen den strategischen Launen eines einzigen Hauptkunden stark aussetzt. Gepaart mit einer ungehedgten Abhängigkeit von externen Foundry-Kapazitäten, einem sich entwickelnden Software-Ökosystem und einem etablierten Wettbewerber, der über faktisch unendliches Kapital und einen kürzlich erworbenen Inferenz-Konkurrenten verfügt, ist der Spielraum für Fehler bei der Umsetzung gleich null. Das Unternehmen muss den Sprung vom Nischen-Hardwareanbieter zum skalierten Unternehmens-Utility makellos bewältigen, um seine aktuelle Marktpositionierung zu rechtfertigen.