Transcripción de Cerebras Systems: el CEO revela una cartera de pedidos de IA de $25.000 millones y explica por qué la burbuja de la IA es un mito
4 de junio de 2026 - Bloomberg Tech 2026, San Francisco
La mayor OPI de semiconductores y la solución a un problema de chips de 75 años
Tom Giles: Andrew, hace apenas dos semanas tuvieron un gran evento.
Andrew Feldman: Sí. La mayor OPI del año hasta ahora.
Tom Giles: La mayor OPI de semiconductores de la historia. Si mis cálculos no fallan, llevas mucho tiempo en la industria. Yo la he seguido durante mucho tiempo. No vemos muchas startups relacionadas con chips, y mucho menos startups de chips que lleguen a una OPI. ¿Cómo cambia eso la IA?
Andrew Feldman: Bueno, primero, los chips son realmente difíciles. Así que la mayoría de nosotros hemos envejecido o muerto en el intento. Para nosotros, aquí, no son caros de fabricar. Este que tengo aquí es el que construimos. [Andrew Feldman muestra el enorme chip Wafer-Scale Engine de Cerebras a la audiencia]. Es el chip más grande jamás fabricado. Gracias. Están aplaudiendo por los chips grandes. Sí, eso es un cambio. Solo costó 500 millones de dólares y diez años de mi vida lograr que funcionara. Y lo que obtuvimos a cambio fue el procesador de IA más rápido jamás construido. Resolvimos un problema que había estado abierto en la industria informática durante 75 años: cómo construir un chip grande. Lo resolvimos, entregamos un producto y estábamos muy orgullosos. Lo anunciamos en agosto de 2019 y a absolutamente nadie le importó. A nadie le importó. Y al mundo le tomó un tiempo ponerse al día.
Andrew Feldman: A partir de 2025, los modelos de IA se volvieron lo suficientemente inteligentes como para que la gente comenzara a usarlos. Y una vez que la gente empezó a usar la IA, la velocidad se volvió importante. Y en la forma en que usamos la IA, lo hacemos mediante inferencia. Y lo que nosotros hacemos es la inferencia más rápida del mundo, no por poco, sino por más de 15 veces. Y así es como terminamos en este lugar extraordinario, saliendo a bolsa hace dos semanas.
Desintegración de la inferencia y la asociación con AWS
Tom Giles: Y en el camino hacia eso, obtuvieron algunas victorias de clientes bastante significativas y validadoras, incluida AWS. Y me parece fascinante esa relación porque realmente ejemplifica la forma en que manejan la inferencia y desintegran el proceso, ¿verdad? Donde el Trainium de AWS maneja una parte, y luego ustedes toman la parte de la inferencia donde se decodifica. Así que hable un poco sobre eso y, más concretamente, hable sobre cómo eso es un modelo o puede ser un modelo para trabajar con otros hiperescaladores.
Andrew Feldman: Tuvimos unos 90 días bastante buenos. Cerramos un acuerdo de más de 20.000 millones de dólares con OpenAI en un compromiso de "take-or-pay". Y 45 días después, firmamos un gran acuerdo con AWS. La idea en la mayoría de los casos, como arquitecto informático, es tratar de observar un problema y pensar cuál es la máquina adecuada para él. ¿Deberías diseñar la máquina? ¿Podemos usar la máquina de alguien más? Lo que vimos en 2015 y 2016 fue el surgimiento de una nueva carga de trabajo. Y pensamos: bueno, esta carga de trabajo va a consumir mucha computación. Esta nueva IA va a consumir una cantidad extraordinaria de computación. Y en ese momento hicimos dos apuestas contrarias. La primera fue que construiríamos silicio dedicado para ella. Y la segunda, que no construiríamos algo que pareciera una GPU. Empezaríamos con una hoja en blanco y construiríamos algo completamente diferente.
Andrew Feldman: En ese momento, la gente pensaba que estábamos locos, y resultó que no estábamos muertos, ¿verdad? Ahora, si avanzamos diez años, hay tanta demanda en este momento de inferencia porque la IA, a partir de 2025, se volvió tan inteligente que puede hacer cosas importantes. Y la estamos usando cada vez más. Y así, nuevamente, observamos el trabajo. ¿Cuál es la esencia del problema de la inferencia? Se compone de dos partes. Se compone de una parte llamada procesamiento del prompt. Y no se dejen engañar ni por un minuto, simplemente inventamos nombres complicados sin ninguna razón, es increíble. Vamos a llamar a eso "pre-fill" sin ninguna razón en absoluto. Y todo lo que es, es el procesamiento del prompt. Y luego hay una segunda parte, que es la generación de la respuesta. Así que procesas el prompt y generas la respuesta. Llamamos a la primera parte "pre-fill" y a la segunda parte "decode".
Andrew Feldman: Resulta que tienen características de computación muy diferentes. Así que pensamos que hay máquinas que son mejores que nosotros en este "pre-fill". Es un problema paralelizable. Tiene características fundamentalmente diferentes al "decode", que es un problema estrictamente secuencial. Y así tomamos esta observación y fuimos a hablar con AWS y les dijimos: podemos usar su parte Trainium para hacer el "pre-fill" y usaremos nuestro chip grande para hacer el "decode". Y lo que obtendremos es esta solución extraordinaria. Resultó ser muy bien recibida. Y ahora estamos inmersos en ese proceso de usar las piezas de otros para una parte del problema y nuestra pieza para otra, con todos los miembros de la comunidad, otros hiperescaladores que no sean Nvidia. Así que todos menos ellos.
La batalla entre chips especializados y generalistas
Tom Giles: Quiero volver a eso en un minuto. Hablamos de desintegración, pero en la fabricación de chips, ¿no es inevitable que la generalización y alejarse de un enfoque desintegrado sea lo que gane? ¿No hay casi una inevitabilidad ahí, y qué sucede si ese es el caso?
Andrew Feldman: No. Creo que la batalla entre el especialista y el generalista es una batalla muy interesante. Y ya sea en la sabana de África o con pequeñas empresas enfrentándose a grandes empresas, lo que determina si el especialista vence al generalista o el generalista vence al especialista es la forma del panorama de recursos. Si la veta de recursos a la que apunta el especialista es muy grande, el especialista la aplasta y gana. Si el panorama de recursos está compuesto por muchos pequeños bolsillos diferentes de recursos, el generalista gana.
Andrew Feldman: Entonces, ¿dónde ganó x86? En este panorama que estaba lleno de muchos casos de uso diferentes. ¿Dónde ganó la GPU? Ganó en gráficos discretos, una carga de trabajo discreta. ¿Dónde ganó la máquina x86? En todas partes. ¿Por qué no ganó también en el teléfono celular? Porque ARM construyó algo que estaba 100% enfocado en funcionar con batería y muy bajo consumo. Y aquí hay dos ejemplos donde el especialista superó absolutamente al generalista. En otros casos, el panorama de recursos no fue suficiente. Miembros de la industria, incluido yo mismo, intentamos construir un especialista. No había suficiente para que comiéramos. Así que comimos un poco y nos morimos de hambre mientras los generalistas acaparaban todo tipo de recursos. Así que lo que vimos en 2015 fue que este auge de la IA crearía tanta demanda de computación que se atendería mejor con un especialista. Y esa fue una de las observaciones ganadoras.
¿Es la IA una burbuja? La cartera de pedidos de $25.000 millones
Tom Giles: La otra gran victoria de cliente que mencionó, OpenAI, tiene una estructura única. Estamos viendo que OpenAI y otros LLM tienen que volverse cada vez más creativos con las formas en que financian y pagan estos acuerdos de computación, como el suyo, debido a esta gran demanda a la que usted hace referencia y que está a nuestro alrededor. Cientos de miles de millones de dólares siendo gastados. ¿Tiene preocupaciones sobre su capacidad para generar los ingresos y recaudar el financiamiento que necesitan para cumplir con sus obligaciones? Creo que tal vez otra forma de hacer esa pregunta es, ¿cree que hay una burbuja de IA? ¿Pueden los líderes seguir adelante? ¿Es sostenible el crecimiento y se materializará la demanda de los usuarios lo suficientemente rápido?
Andrew Feldman: Sabe, ambos hemos estado en esto. Este no es nuestro primer rodeo. Pero una de las pocas ventajas de no ser joven es que no es tu primer rodeo. Pienso lo siguiente. Históricamente, las burbujas se caracterizaban por la noción de que "si lo construyes, ellos vendrán". Vi a algunas personas que reconocí en la audiencia que estuvieron conmigo a finales de los 90 cuando estábamos construyendo equipos de redes de datos, y la gente estaba poniendo enormes cantidades de fibra en el suelo bajo la suposición de que vendrían. A los economistas les gusta volver, por razones que no me quedan claras, a los ferrocarriles y a muchas buenas analogías de la década de 1870. Allí también pensaban: "si lo construyes, ellos vendrán".
Andrew Feldman: Lo inusual de la IA en este momento es que los constructores están tan lejos de la demanda que es absurdo. Tenemos una cartera de pedidos de más de 25.000 millones de dólares de demanda que ninguno de nosotros, ni nosotros, ni AMD, ni Nvidia, puede seguir el ritmo de la demanda que están impulsando los usuarios finales. Y eso es, en muchos sentidos, lo opuesto a una burbuja. Estamos persiguiendo a nuestros clientes, y sus clientes se mueven a la velocidad del software, mientras que nosotros nos movemos a la velocidad de los centros de datos inmobiliarios. Y por eso, estamos rezagados.
Limitaciones de los centros de datos y relaciones comunitarias
Tom Giles: Hable un poco más sobre eso. Quiero decir, hizo un podcast con uno de mis colegas de Bloomberg Intelligence, y hablaba de que si hay una limitación ahora mismo para ustedes, es el acceso al centro de datos. Estamos viendo en todo el país, especialmente en un año electoral, mucha resistencia, muchas objeciones de "no quiero eso en mi patio trasero". ¿Cómo están lidiando con eso?
Andrew Feldman: Son dos cosas diferentes. Primero, todos estamos limitados por los centros de datos. Ahora mismo, si habla con nosotros, tenemos una nube, estamos limitados por los centros de datos. AWS está limitado por su fase de despliegue de centros de datos. Todos están limitados por sus despliegues de centros de datos. Así que eso es lo primero. Lo segundo es un tema aparte, y es: ¿por qué el mundo está enojado con nosotros? Y están enojados con nosotros porque fuimos unos tontos. No nosotros particularmente, sino nuestra industria. Podríamos haber salido a estas comunidades y haber sido buenos vecinos. Podríamos haber ido a estas comunidades y haber utilizado sus procesos, sus gobiernos locales, para obtener aprobación y aceptación. Podríamos haber sido buenos vecinos. Podríamos haber pagado nuestra parte, pagado fondos suficientes en el desarrollo de estos centros de datos para que la comunidad local nunca tuviera que poner ni un centavo.
Andrew Feldman: Podríamos haber compartido cómo un centro de datos de 150 a 200 megavatios, que no es gigante, creará miles de empleos durante varios años solo en la construcción. Podríamos haber compartido cómo, por ejemplo, usamos menos agua en un centro de datos gigante que en un restaurante pequeño. ¿Sabe que, en todo EE. UU., los centros de datos usan menos agua que los productores de almendras en California? No por una, dos, tres o cuatro veces, sino que las almendras consumen entre cinco y siete veces más agua que los centros de datos. Y lo que hicimos fue correr hacia adelante, y puede ser que tengamos un coeficiente intelectual bajo y seamos mejores hablando con máquinas que con personas como industria, pero corrimos hacia adelante y no pensamos en las comunidades en las que estábamos poniendo estos centros de datos.
Andrew Feldman: Brad Smith, de Microsoft, apareció y lanzó un llamado a la acción para todos. Era simplemente sentido común. Tenía cinco pilares reflexivos y, al final, era como: trátalos como a tus vecinos. Y es absolutamente posible que vayas a una comunidad y construyas un centro de datos, y la comunidad te quiera. Creas empleos. La base impositiva aumenta mucho. Tenemos equipo pesado en el sitio, podemos construir un campo de béisbol para la escuela. Como comunidad, podríamos haber hecho un mejor trabajo y lo arruinamos. No nos ganamos a la comunidad.
Tom Giles: ¿Y qué hará diferente?
Andrew Feldman: No soy un constructor de centros de datos. Soy un comprador. Y por eso, estamos comprometidos con las comunidades en las que tenemos centros de datos. Estamos comprometidos con la cámara de comercio local. Estamos comprometidos con la comunidad lo mejor que podemos. También hemos elegido centros de datos que están en áreas rurales que están lejos. A veces escuchará que no tenemos suficiente energía en EE. UU. Eso no es cierto. Tenemos mucha energía. Simplemente no está cerca de nada. Y por eso es un poco más caro llegar allí. Nuestra energía está en el oeste de Texas, nuestra energía está en la zona rural de Utah, nuestra energía está en partes de Luisiana donde nadie quiere vivir. Nuestra energía está en el Niágara. Canadá tiene más energía de la que sabe qué hacer. No solo tienen agua que cae, sino que tienen gas natural atrapado en lugares. Y así que tienes que ir a donde está la energía. Y creo que tienes que pensar en cómo sacar los resultados, los tokens, con cables de fibra óptica. Así que tienes que instalarlos. Pero creo que no es una cuestión de "o esto o aquello". Y simplemente, como industria, hicimos un mal trabajo al entrar en las comunidades y ser buenos vecinos.
Concentración de clientes y escalabilidad con G42 y OpenAI
Tom Giles: Al observar las victorias de clientes, vimos por su relación inicial, fundamental e importante con G42, que necesita diversificar su base de clientes. Lo ha hecho con Meta, con AWS. ¿Dónde deberíamos buscar las próximas grandes victorias y cuánto tiempo podría pasar antes de que veamos eso materializarse?
Andrew Feldman: Es muy curioso, y nunca se me ocurrió. Y ciertamente, en el mundo privado, nadie dice "tienes este cliente enorme, es malo". Seremos contabilizados por un porcentaje tan significativo de sus ingresos que cuenta toda nuestra fabricación. Así que, a finales de 2023, hicimos un acuerdo de 1.000 millones de dólares con el campeón de IA en los EAU, una empresa llamada G42. Y fueron uno de los primeros en moverse en el mundo. Y salimos al mercado y fuimos a recaudar dinero, y la gente dijo: "solo tienes un gran cliente". Y luego ganamos a OpenAI, y hicieron un acuerdo de más de 20.000 millones de dólares. Y la gente dijo: "ahora solo tienes un gran cliente". Solía tener uno, y ahora sigo teniendo uno, solo que es 20 veces más grande. Es uno de los acuerdos más grandes en la historia de Silicon Valley. Y luego ganamos a AWS.
Andrew Feldman: Creo que la verdad es varias cosas. Primero, esta industria va a tener clientes muy, muy grandes. Nvidia hizo, qué, 68.000 millones de dólares el último trimestre, y cuatro clientes representaron la mitad de eso. Ese es el mundo en el que jugamos. Correcto. Y por eso habrá concentraciones de clientes extraordinarias. Y algunos de esos clientes en realidad sirven a cientos de otros clientes. Así que G42 es una nube para el ecosistema de los EAU. Hay universidades en Abu Dabi. Hay compañías petroleras en Dubái. Hay cientos de usuarios diferentes, pero se agregan en un solo lugar y son un solo cliente. De la misma manera, cuando le vendemos a OpenAI, ¿a qué le estamos vendiendo realmente? Le estamos vendiendo a miles de millones de usuarios individuales que están usando la computación.
La velocidad como foso defensivo y la era Costco de la economía de tokens
Tom Giles: Me encantaría tener una idea, sabe, OpenAI acaba de presentar un modelo basado en Cerebras. ¿Cuáles son algunos de los primeros aprendizajes de eso? ¿Cuáles son algunas de las conclusiones y cuáles son algunas de las métricas que puede compartir con respecto al rendimiento, tokens por segundo o cualquier otra métrica?
Andrew Feldman: Lo que sabemos, y Google lo demostró hace años en 2009, hay un artículo interesante que dice que incluso cambios muy pequeños en la cantidad de tiempo que lleva obtener una respuesta afectan su disfrute del servicio. Unos milisegundos más lentos producen resultados increíblemente significativos en cuánto tiempo te quedas, con qué frecuencia usas, incluso si no eres consciente de ello. Y lo sabemos. Y si lo piensas, dices: bueno, ¿qué tan grande es el mercado para la búsqueda lenta? ¿Por qué? ¿Qué tan grande es el mercado para el internet de acceso telefónico? ¿Cuánto tendría que pagarte para que elimines la banda ancha? Mil al mes. ¿Querrías internet lento en casa? No. La IA va a ser de la misma manera. Nadie quiere una IA lenta.
Andrew Feldman: Si te pido que esperes ocho segundos para que se resuelva un sitio web, pierdes la cabeza. Y así, una vez que una tecnología se entrelaza en lo que hacemos todos los días, la velocidad con la que la usas se vuelve fundamental. Y cuando eres mucho más rápido, lo sientes en todo lo que haces. El tipo que diseñó Open Coder, Peter Steinberger, dijo que usarnos era como darle el martillo de Thor. Y dijo que eso es lo que se sentía al ser un programador con nuestra velocidad. Y así, sus usuarios serán más productivos. Harán más en una hora. Y esa ventaja se concatena y aumenta con el tiempo. Y por eso, eso es lo que la velocidad siempre ha traído.
Tom Giles: Hay una sensibilidad al precio que se está integrando en el mercado en este momento. Mientras que antes escuchábamos sobre la maximización de tokens, ahora escuchamos sobre medidores y límites, y sabe, ¿cómo es eso?, ¿es real?, ¿está generalizado y está cambiando el ritmo de adopción?
Andrew Feldman: Voy a delatar mi edad aquí. Recuerdo cuando Costco, la primera tienda de almacén, llegó a Palo Alto. Abrió en Redwood City, y mi madre compraba en Costco de la misma manera que compraba en Safeway. Recorría cada pasillo. Y como sabe, es un error horrible en un Costco, ¿verdad? Porque cometes dos errores, y cuestan 19 dólares cada uno, y terminas con un bote de mayonesa que es enorme, por alguna razón que pensaste que era una buena idea en ese momento. Lo que pasó dos o tres años después fue que nadie compraba en Costco así. Ibas al fondo y conseguías el pollo barato, ¿verdad? Y mirabas tu lista, y ibas allí, y conseguías la caja grande de pastelitos porque tu hijo cumple años, y cambiaste por completo la forma en que comprabas.
Andrew Feldman: Eso es lo que está pasando ahora mismo con los tokens. Al principio, es como: "oye, adelante". Y Microsoft se despertó un día y dijo: "los tokens son caros, espera, no podemos dejar que todos usen tanto Anthropic como quieran". Qué observación tan extraña. ¿Qué otro recurso dejamos que todos usen tanto como quieran? Es simplemente estúpido desde el principio. Por supuesto, tienes que asignar recursos en tu organización. Hay algunas personas a las que deberías quitarles los obstáculos; son increíblemente productivas en todo. Hay otras personas a las que tienes que medir. Es la forma en que funciona el mundo, ¿verdad? ¿Necesitas Spark o GPT-4 o el modelo de gama más alta para cada problema? Sabe, no necesitas un Ferrari para ir a la tienda de comestibles. Use un modelo de código abierto de menor costo. Y así, lo que estamos aprendiendo es cómo comprar en Costco. Estamos aprendiendo que ahora tenemos esta abundancia. Y estamos aprendiendo cómo no comprar ese bote de mayonesa de 18 dólares. Y solo tenemos que dar un paso atrás y decirnos a nosotros mismos: "de acuerdo, vamos a usar los modelos caros aquí, y vamos a usar modelos de código abierto aquí". Y aquí hay algunas personas que vamos a asignar a cada uno de estos grupos. Y así es como vamos a proceder. Y creo que este es el aprendizaje que está viendo suceder extremadamente rápido.
Análisis profundo de Cerebras Systems
La arquitectura a escala de oblea y el foso físico
En el panorama de la computación de alto rendimiento, la inferencia y el entrenamiento de inteligencia artificial están fundamentalmente limitados por el "muro de memoria". Esto se refiere al tiempo y la energía consumidos por el movimiento de datos entre los bancos de memoria y el procesador de cómputo. La arquitectura dominante en el mercado resuelve esto conectando unidades de procesamiento gráfico (GPU) discretas mediante redes ópticas de alta velocidad y memoria de gran ancho de banda. Cerebras Systems evita este cuello de botella físico por completo. Al utilizar una oblea de silicio completa de 46.225 milímetros cuadrados, el Wafer-Scale Engine actúa como un procesador único y contiguo. La iteración actual, el WSE-3, cuenta con 4 billones de transistores y 900.000 núcleos optimizados para inteligencia artificial. Sin embargo, su verdadera arma arquitectónica son los 44 gigabytes de memoria de acceso aleatorio estática (SRAM) en el chip. Al almacenar los pesos del modelo directamente en la oblea, Cerebras ofrece un ancho de banda de memoria de 21 petabytes por segundo. En comparación con los procesadores insignia de la competencia, el WSE-3 cuenta con muchos más núcleos de cómputo y un multiplicador masivo en el ancho de banda de memoria. Esta diferencia estructural permite que modelos de parámetros excepcionalmente grandes se ejecuten de forma nativa en un solo sistema sin la penalización de latencia de la comunicación entre chips, lo que resulta en una ventaja sustancial en el rendimiento de tokens por segundo para cargas de trabajo de inferencia críticas.
Modelo de negocio y monetización de ingresos
Cerebras opera una estructura de monetización híbrida que está pasando activamente de las ventas de hardware intensivas en capital a un modelo de utilidad de mayor margen. Históricamente, los ingresos provenían casi exclusivamente de la venta de sistemas de supercomputación CS-3 a entidades soberanas y laboratorios nacionales. Hoy en día, el modelo comercial se está bifurcando. La empresa asegura capital inicial mediante despliegues de hardware discretos, pero captura beneficios recurrentes a través de contratos de soporte y mantenimiento, que suelen representar entre el 15% y el 20% del precio inicial del hardware anualmente. Además, Cerebras está pivotando agresivamente hacia un modelo de inteligencia artificial como servicio a través de su AI Model Studio. Esta interfaz de programación de aplicaciones (API) de inferencia y entrenamiento basada en la nube permite a las empresas acceder al cómputo a escala de oblea sin asumir gastos de capital iniciales exorbitantes. Paralelamente, la firma está licenciando su pila de software patentada como un producto empresarial independiente. Este cambio estratégico está diseñado para suavizar la ciclicidad inherente de las ventas de hardware de semiconductores e impulsar una expansión sostenida del margen bruto más allá del nivel base del 40% al 45% logrado en los despliegues de hardware directo.
Concentración de clientes y catalizadores de demanda
El vector de análisis más crítico para Cerebras es su extrema concentración de clientes. Durante su historia previa a la salida a bolsa, la empresa operó prácticamente como un proveedor de hardware cautivo para los Emiratos Árabes Unidos. Entidades como G42 y la Mohamed bin Zayed University of Artificial Intelligence representaron históricamente hasta el 86% de los ingresos totales, una dependencia que presentaba profundas vulnerabilidades geopolíticas y regulatorias. Sin embargo, la narrativa comercial cambió materialmente a finales de 2025, cuando OpenAI firmó un acuerdo de cómputo multianual valorado en más de $20.000 millones, complementado por un préstamo de capital de trabajo de $1.000 millones. Esta transacción alteró fundamentalmente la trayectoria de la firma, proporcionando una validación técnica definitiva por parte del constructor de modelos fundacionales más exigente del mundo. Además, Amazon Web Services se comprometió a desplegar hardware de Cerebras dentro de sus centros de datos para la segunda mitad de 2026. Si bien la cartera de pedidos contratada proporciona una visibilidad de ingresos inigualable, efectivamente intercambia la concentración soberana por la concentración corporativa. Si el cliente ancla altera su estrategia de cómputo, traslada las cargas de trabajo de inferencia internamente o vuelve a las unidades de procesamiento gráfico tradicionales, Cerebras enfrentará un deterioro significativo de sus ingresos.
Arquitectura de la cadena de suministro y dependencia de la fundición
Bajo la diferenciación arquitectónica subyace una precaria dependencia de la cadena de suministro. Cerebras es un diseñador de semiconductores estrictamente "fabless" que depende totalmente de Taiwan Semiconductor Manufacturing Company para la fabricación de obleas. El WSE-3 se fabrica en el nodo de proceso de 5 nanómetros, y el WSE-4 de próxima generación está programado para el nodo de 3 nanómetros. A diferencia de los conglomerados tecnológicos establecidos que cuentan con una escala de compra masiva y asignación prioritaria, Cerebras representa una fracción del volumen total de la fundición. La empresa no posee compromisos formales a largo plazo de suministro o asignación de capacidad por parte de la fundición. Cualquier interrupción en la asignación de obleas, ajustes de precios adversos o fricción geopolítica en Taiwán afectaría inmediatamente la capacidad de la empresa para cumplir con su enorme cartera de pedidos comerciales. Además, la física de la fabricación a escala de oblea introduce desafíos de rendimiento muy específicos. Dado que ninguna oblea de silicio está perfectamente libre de defectos, los ingenieros de Cerebras trabajan sobre esta realidad grabando núcleos de cómputo redundantes en toda la superficie y utilizando enrutamiento de software para evitar las imperfecciones físicas. Si bien esta elegante solución resuelve el problema del rendimiento, requiere técnicas de fabricación y empaquetado altamente especializadas que limitan severamente las opciones de abastecimiento alternativo.
Panorama competitivo y dinámica del ecosistema
El mercado de aceleradores de inteligencia artificial, estimado en más de $200.000 millones para 2026, opera bajo la hegemonía absoluta de Nvidia. El titular domina aproximadamente el 80% del mercado de aceleradores para centros de datos, una posición arraigada y fortalecida por más de una década de fidelización de desarrolladores a través de su plataforma de software patentada. Advanced Micro Devices sirve como la principal alternativa comercial, capturando entre el 5% y el 7% de la cuota de mercado con su serie de aceleradores Instinct. Sin embargo, la verdadera amenaza a largo plazo para el silicio comercial proviene de los propios proveedores de hiperescala. El silicio personalizado interno, como la Tensor Processing Unit de Google, Trainium de Amazon y los chips patentados diseñados en asociación con Broadcom y Marvell, están absorbiendo cargas de trabajo internas masivas. Dentro del ecosistema de startups independientes, la dinámica competitiva experimentó una reestructuración estructural en diciembre de 2025 cuando Nvidia adquirió Groq por $20.000 millones. Groq, que también dependía en gran medida de la memoria de acceso aleatorio estática para maximizar las velocidades de inferencia, competía directamente con Cerebras por cargas de trabajo sensibles a la latencia. Con Groq absorbido por el ecosistema dominante, Cerebras se mantiene como el proveedor independiente más capitalizado de arquitecturas radicales de gran ancho de banda a escala, aunque enfrenta una presión sostenida de retadores de hardware especializados como SambaNova y Tenstorrent.
Impulsores de nuevos productos y trayectoria futura
El motor de crecimiento futuro depende en gran medida del despliegue exitoso de la arquitectura WSE-4. La transición al nodo de proceso de 3 nanómetros permitirá a Cerebras incluir exponencialmente más transistores en una sola oblea, reduciendo simultáneamente el consumo de energía por token generado y expandiendo la capacidad de cómputo bruto. Además, la empresa está integrando agresivamente sistemas de refrigeración líquida directa al chip a nivel de rack, una evolución física obligatoria dada la inmensa densidad térmica generada al operar una oblea completa a su máxima utilización. Más allá de la ejecución del silicio bruto, el catalizador principal para el crecimiento reside en la capa de software. El software compilador de la empresa debe demostrar que puede ingerir sin problemas modelos de código abierto y marcos de trabajo ampliamente utilizados sin requerir que los desarrolladores modifiquen significativamente sus bases de código. El éxito del próximo despliegue de Amazon Web Services servirá como prueba de fuego definitiva en este sentido. Si los desarrolladores empresariales pueden desplegar modelos de parámetros masivos en una instancia alojada de Cerebras con la misma facilidad que en un clúster convencional, el mercado total direccionable se expandirá con éxito desde los laboratorios de investigación de élite hasta los despliegues empresariales convencionales.
Trayectoria de la dirección
El liderazgo ejecutivo, encabezado por el director ejecutivo Andrew Feldman y el director de tecnología Sean Lie, posee un distinguido pedigrí operativo en arquitectura de semiconductores. El equipo fundó y vendió anteriormente la empresa de infraestructura de servidores SeaMicro a Advanced Micro Devices, estableciendo una profunda credibilidad en el diseño de computación de alto rendimiento. Su gestión en Cerebras se define por ejecutar una visión de ingeniería que la industria de semiconductores en general descartó como físicamente imposible. Gestionar con éxito la expansión térmica, el suministro de energía y el enrutamiento de defectos de un chip a escala de oblea es un logro de ingeniería objetivamente monumental. Además, la dirección demostró una agilidad estratégica excepcional a finales de 2025. Enfrentando obstáculos regulatorios existenciales con respecto a su exposición a los ingresos en Oriente Medio antes de una salida a bolsa planificada, el liderazgo pivotó agresivamente para asegurar el transformador acuerdo con OpenAI, eliminando con éxito los riesgos de la oferta pública inicial de 2026. Sin embargo, operar como una entidad que cotiza en bolsa introduce una serie de demandas completamente nuevas. La transición de la investigación y el desarrollo puros al despliegue global a escala, la gestión compleja de la cadena de suministro y la ejecución financiera trimestre a trimestre pondrán a prueba rigurosamente el ancho de banda operativo del equipo ejecutivo.
El marcador
Cerebras Systems representa la desviación arquitectónica más audaz en el panorama del silicio para inteligencia artificial. Al enfrentar el muro de memoria de frente, el paradigma a escala de oblea ofrece ventajas demostrables en rendimiento y latencia para las cargas de trabajo de inferencia más exigentes de la industria. La obtención de una enorme cartera de pedidos multianual con el principal constructor de modelos fundacionales proporciona una validación inigualable de la tecnología subyacente y garantiza un camino claro hacia una aceleración extraordinaria de los ingresos en los próximos ciclos.
Por el contrario, los riesgos estructurales asociados a este perfil de crecimiento son severos. La base comercial simplemente cambió la dependencia soberana por la concentración corporativa, dejando a la firma altamente expuesta a los caprichos estratégicos de un solo cliente primordial. Junto con una dependencia sin cobertura de la asignación de fundición externa, un ecosistema de software en desarrollo y un competidor titular armado con capital efectivamente infinito y un competidor de inferencia recientemente adquirido, el margen para el error de ejecución es inexistente. La empresa debe cerrar sin fallas la brecha entre ser un proveedor de hardware de nicho y una utilidad empresarial a escala para justificar su posicionamiento actual en el mercado.