CEO de Cerebras: "Nadie quiere una IA lenta": un acuerdo de $20.000 millones con OpenAI, la estrategia de arquitectura con AWS y por qué esto no es una burbuja
Bloomberg Tech 2026, San Francisco — 4 de junio de 2026
Dos semanas después de llevar a cabo lo que el CEO de Cerebras, Andrew Feldman, calificó como la mayor oferta pública inicial (OPI) de semiconductores de la historia, Feldman se sentó con Tom Giles de Bloomberg en el evento Bloomberg Tech 2026 en San Francisco para exponer la tesis comercial de la empresa, su arquitectura de asociación con proveedores de nube (hyperscalers) y su visión inequívoca sobre si el gasto en infraestructura de IA se ha excedido. Las respuestas fueron más esclarecedoras de lo que la mayoría de las llamadas de inversionistas ofrecen en todo un trimestre.
Los acuerdos con OpenAI y AWS son el modelo, no la excepción
La información nueva más importante de la conversación se refiere a la estructura y escala del impulso comercial de Cerebras antes de su OPI. Feldman confirmó un acuerdo de "take-or-pay" (tomar o pagar) comprometido con OpenAI por "más de $20.000 millones", firmado aproximadamente 45 días antes de un acuerdo por separado con AWS. En conjunto, estas dos transacciones establecen un modelo comercial que Feldman describió como diseñado para extenderse a otros hyperscalers, con una excepción puntual. "Ahora estamos inmersos en ese proceso de utilizar las piezas de otros para una parte del problema y nuestra pieza para otra parte del problema, con todos los miembros de la comunidad, otros hyperscalers que no sean Nvidia", señaló. Al ser presionado, confirmó: "Así que todos menos ellos".
El acuerdo con AWS es arquitectónicamente interesante y merece la atención de los inversionistas porque revela cómo Cerebras pretende integrarse en la infraestructura de nube existente en lugar de competir directamente con ella. La idea central es una descomposición de la carga de trabajo de inferencia en dos problemas de cómputo distintos. El primero, llamado "prefill" (prellenado), procesa el prompt entrante y es altamente paralelizable, lo que significa que el silicio optimizado para entrenamiento de los hyperscalers lo maneja bien. El segundo, llamado "decode" (decodificación), la generación de la respuesta real, es estrictamente secuencial, y ahí es donde el chip de Cerebras ofrece su ventaja de rendimiento. "Podemos usar su entrenamiento en parte para hacer el 'pre' y usaremos nuestro gran chip para hacer el 'decode'", explicó Feldman. "Y lo que obtendremos es esta solución extraordinaria". La implicación para los inversionistas es que Cerebras no intenta desplazar la infraestructura de los hyperscalers por completo; se está insertando en el paso más sensible a la latencia y de mayor valor de la cadena de inferencia.
La velocidad es el producto, y la analogía de mercado es deliberadamente directa
Feldman fundamentó el argumento de la velocidad en un documento de Google de 2009 que muestra que incluso pequeños incrementos en la latencia de respuesta reducen significativamente la participación del usuario, la retención y la duración de la sesión, incluso cuando los usuarios no son conscientes del retraso. Tradujo esto en un argumento directo de dimensionamiento de mercado: "¿Qué tan grande es el mercado para la búsqueda lenta? ¿Qué tan grande es el mercado para el internet de acceso telefónico?". Definió la velocidad no como una especificación de rendimiento, sino como la característica definitoria de una categoría de producto. Cerebras afirma que su inferencia es más de 15 veces más rápida que la de sus competidores. Peter Steinberger, diseñador de Open Claw, fue citado diciendo que usar Cerebras "era como darle el martillo de Thor" para la productividad en la codificación.
La afirmación de rendimiento de la empresa —más de 15 veces más rápida que las alternativas— sigue siendo el pilar central de su propuesta comercial, y las victorias con OpenAI y AWS proporcionan una validación de terceros significativa. Si esa ventaja de rendimiento es duradera a medida que evolucionan las arquitecturas competidoras es una pregunta legítima que la entrevista no abordó directamente.
Cartera de pedidos de $25.000 millones y el argumento contra la burbuja
Sobre la cuestión de si el gasto en infraestructura de IA constituye una burbuja, Feldman presentó el argumento más directo y fundamentado empíricamente a su alcance: Cerebras cuenta actualmente con una cartera de pedidos (backlog) de más de $25.000 millones en demanda que ningún proveedor, incluidos AMD y Nvidia, puede satisfacer. "Los constructores están tan rezagados respecto a la demanda que resulta absurdo", afirmó. Su enfoque sobre las burbujas históricas merece ser tomado en serio. "Históricamente, las burbujas se caracterizaban por la noción de que 'si lo construyes, ellos vendrán'", señaló, citando las expansiones de fibra óptica de finales de los 90 y la construcción de ferrocarriles en la década de 1870. "Lo inusual de la IA en este momento es que los constructores están muy por detrás de la demanda". Añadió: "Nuestros clientes y los clientes de ellos se mueven a la velocidad del software, y nosotros nos movemos a la velocidad de los centros de datos inmobiliarios".
La cifra de $25.000 millones en pedidos, si es precisa, representa un dato significativo para el sector. Los inversionistas deben tener en cuenta que Feldman no desglosó la composición de esa cartera ni el cronograma en el que se espera que se convierta en ingresos, lo cual es material dada la naturaleza de ciclo largo de las implementaciones de centros de datos.
Concentración de clientes: un cliente grande, luego uno más grande
Feldman abordó el riesgo de concentración de clientes con su característica franqueza. Antes del acuerdo con OpenAI, Cerebras tenía un contrato comprometido de $1.000 millones con G42, el campeón de IA con sede en los Emiratos Árabes Unidos, firmado a finales de 2023. Cuando la empresa intentó recaudar capital, los inversionistas señalaron la dependencia de un solo cliente. Luego, Cerebras firmó con OpenAI por más de $20.000 millones y después con AWS. "Solía tener uno y ahora sigo teniendo uno. Solo que es 20 veces más grande", dijo Feldman. Contextualizó esto frente al propio perfil de concentración de Nvidia: "Nvidia facturó aproximadamente $68.000 millones el trimestre pasado y cuatro clientes representaron la mitad de eso. Ese es el mundo en el que jugamos". El punto es válido, aunque no elimina el riesgo de concentración, sino que lo normaliza dentro del sector.
También ofreció un replanteamiento útil sobre lo que representan en la práctica los grandes clientes individuales. G42 es un proveedor de nube que presta servicios a universidades, compañías petroleras y cientos de otros usuarios finales en todo el ecosistema de los Emiratos Árabes Unidos. La demanda de cómputo de OpenAI refleja, en última instancia, a miles de millones de usuarios finales individuales. El número de clientes principales subestima la amplitud real de la demanda final que se está atendiendo.
La economía de los tokens está madurando más rápido de lo esperado
Sobre la cuestión emergente de los límites de tokens, la sensibilidad a los precios y la asignación empresarial de cómputo para IA, Feldman utilizó una analogía con Costco que va directo al grano. La adopción temprana de IA empresarial se parecía a recorrer cada pasillo de una tienda mayorista sin una lista: un desperdicio y mal calibrado. "Microsoft se despertó un día y dijo: los tokens son caros", señaló, describiendo la comprensión como obvia en retrospectiva. "¿Qué otro recurso dejamos que todo el mundo use tanto como quiera? Es simplemente una estupidez desde el principio". El mercado ahora está aprendiendo a diferenciar: modelos de frontera de alta capacidad para tareas que justifican el costo, alternativas de código abierto para todo lo demás, con una asignación interna que refleja los niveles de productividad individual. Feldman ve esto como una normalización saludable y rápida, no como una señal de destrucción de la demanda.
Cuellos de botella en los centros de datos y el fracaso de las relaciones comunitarias
Feldman fue inusualmente sincero sobre el fracaso de la industria de la IA a la hora de generar apoyo comunitario para la expansión de los centros de datos. La restricción es real —la oferta en la nube de Cerebras está limitada por la disponibilidad de centros de datos, al igual que todos los hyperscalers—, pero situó gran parte de la resistencia política en un autogol evitable. "Podríamos haber sido buenos vecinos. Podríamos haber salido a estas comunidades y utilizado sus procesos, sus gobiernos locales, para obtener aprobación y aceptación". Citó el fracaso de la industria a la hora de comunicar las cifras de creación de empleo, las contribuciones a la base impositiva y el hecho contraintuitivo de que los centros de datos en EE. UU. consumen entre cinco y siete veces menos agua que los productores de almendras de California. "Corrimos hacia adelante y no pensamos en las comunidades en las que estábamos colocando estos centros de datos", dijo rotundamente. "Lo arruinamos".
La respuesta de Cerebras ha sido ubicar su capacidad en áreas con energía abundante y barata: el oeste de Texas, zonas rurales de Utah, partes de Luisiana, Niágara y Canadá en general. La lógica es sencilla: buscar la disponibilidad de energía en lugar de la proximidad a los centros de población y luego mover los tokens a través de fibra. Es una solución pragmática a un problema que la industria creó para sí misma y que aún no ha resuelto a gran escala.
La pregunta sobre especialistas frente a generalistas sigue siendo la correcta
Sobre la inevitable pregunta de si las arquitecturas integradas de propósito general desplazarán eventualmente al silicio especializado, Feldman ofreció un marco analítico en lugar de una respuesta promocional. El resultado, argumentó, está determinado enteramente por la forma del panorama de recursos. "Si la veta de recursos a la que apunta el especialista es muy grande, el especialista la aplasta y gana. Si el panorama de recursos está compuesto por muchos pequeños bolsillos de recursos diferentes, gana el generalista". Citó el dominio de la GPU en los gráficos discretos como una victoria del especialista, la derrota de x86 por parte de ARM en móviles como otra, y la amplitud final de la máquina x86 como una victoria del generalista en casos de uso fragmentados. Su opinión es que la inferencia de IA —específicamente el problema de la decodificación— representa una carga de trabajo grande y estructuralmente distinta que justifica una arquitectura especializada. Si esa veta de recursos sigue siendo lo suficientemente grande a medida que mejora la eficiencia de los modelos y se intensifica la competencia de hardware es el riesgo central a largo plazo para la tesis de Cerebras, y Feldman no abordó esto directamente.