Nebius: La neocloud diseñada para inferencia, agentes y márgenes, no solo para megavatios
Conferencia Global de Tecnología 2026 de Bank of America, 3 de junio de 2026
Roman Chernin, Chief Business Officer de Nebius Group, se reunió con el analista de Bank of America, Tal Liani, en la Conferencia Global de Tecnología 2026 de la firma para explicar por qué Nebius considera que está estructuralmente posicionada para superar tanto a los hiperescaladores como a otras neoclouds, a medida que el mercado de infraestructura de IA evoluciona desde el cómputo bruto hacia la inferencia y las cargas de trabajo de agentes. La conversación reveló dos perspectivas genuinamente nuevas y relevantes para los inversores: una articulación clara de cómo el stack de software de Nebius expande directamente su base de clientes direccionable e impulsa los márgenes, y la lógica estratégica detrás de sus dos adquisiciones recientes, Eigen y Clarifai, que juntas conforman lo que la gerencia considera uno de los equipos de ingeniería de inferencia a escala más sólidos del mercado.
No venden agua en el desierto: venden el sistema de tuberías
Liani comenzó definiendo el auge actual de la infraestructura de IA sin rodeos: "Vender capacidad de centro de datos hoy es como vender agua en un día caluroso en el desierto". La réplica de Chernin fue igual de directa y estratégicamente importante. "Nosotros no vendemos capacidad de centro de datos. Vendemos un producto construido sobre ella". Esta distinción no es lenguaje de marketing; refleja una arquitectura de comercialización deliberada y estratificada que Nebius ha construido en torno a distintos arquetipos de clientes, cada uno de los cuales consume infraestructura de IA en un nivel de abstracción diferente.
En la base se encuentran los hiperescaladores y los grandes laboratorios de frontera que desean cómputo bare-metal a escala sin nada más. Por encima de ellos se sitúan lo que Chernin denomina "AI-Native Labs" o "Neolabs": cientos, potencialmente miles de organizaciones centradas en la investigación que desean infraestructura gestionada para poder concentrarse en tareas de entrenamiento sin tener que ejecutar su propio stack de software completo. Nebius atiende a este grupo a través de lo que llama su nube multi-tenant. La siguiente capa es la de los creadores de productos de IA vertical —empresas como Cursor en programación, Harvey o Legora en el sector legal, Gamma en contenido y Clay en CRM—, quienes no piensan en absoluto en términos de horas de GPU. Ellos consumen modelos como servicio, y para ellos Nebius construyó una plataforma de inferencia gestionada llamada Nebius Token Factory. Más allá, se encuentra la capa emergente de agentes, donde los desarrolladores no elegirán modelos ni compararán precios de tokens, sino que simplemente comprarán resultados de la ejecución de agentes.
"Nuestra estrategia de producto es encontrarlos allí", afirmó Chernin, describiendo la filosofía de seguir cada ola sucesiva de consumo de IA en lugar de anclarse a una única capa de abstracción. La lógica comercial es sencilla: cada capa hacia arriba en el stack expande el universo de servicio de Nebius, pasando de un puñado de hiperescaladores a miles y, eventualmente, a decenas o cientos de miles de desarrolladores y constructores.
La inferencia ya está marcando la diferencia y mejorando la economía del CapEx
Chernin confirmó que la inferencia es ya el segmento de mayor crecimiento dentro de la mezcla de ingresos de Nebius y está teniendo un "impacto positivo y significativo en el negocio" hoy, no en una fecha futura. Esto es importante para los inversores que modelan la trayectoria a corto plazo de la empresa. Los contratos de entrenamiento son en gran medida ventas únicas impulsadas por la infraestructura, donde los clientes llegan sabiendo exactamente qué clúster de GPU quieren y por cuánto tiempo. La inferencia es estructuralmente diferente: es recurrente, está alineada con el propio crecimiento del cliente y permite a Nebius extraer valor a través de la optimización del software en lugar de solo mediante la entrega de hardware.
Chernin señaló un punto particularmente útil sobre el ciclo de vida del CapEx. Cuando llegan chips más nuevos y los grandes clientes migran sus cargas de trabajo de entrenamiento de frontera al hardware más reciente, los clústeres antiguos no se convierten en activos varados; se redistribuyen para cargas de trabajo de inferencia. Citó el acuerdo entre Anthropic y SpaceX como una ilustración pública de esta dinámica, donde SpaceX trasladó el entrenamiento a un clúster más nuevo mientras el hardware original seguía siendo productivo para la inferencia. Para un negocio intensivo en capital como Nebius, extender la vida útil generadora de ingresos de un clúster de GPU es una mejora directa al retorno sobre el capital invertido.
Las adquisiciones de Eigen y Clarifai: construyendo el motor de inferencia
Las dos adquisiciones que Nebius ha realizado recientemente —Eigen, con sede en San Francisco, y Clarifai, con sede en la Costa Este— están específicamente orientadas a fortalecer la plataforma de inferencia Token Factory, y la lógica es lo suficientemente precisa desde el punto de vista técnico como para que valga la pena entenderla en detalle.
Eigen es un equipo impulsado por la investigación, fundado por doctores del MIT, centrado en la optimización de la inferencia a nivel de modelo: extraer un mayor rendimiento de tokens de una sola GPU. La competencia central de Clarifai es la inferencia como sistema: cómo orquestar miles de GPU sirviendo a millones de usuarios de manera eficiente, incluyendo estrategias de caché, escalado de nodos durante picos de demanda y reducción rápida cuando el tráfico disminuye. "Al combinarlo todo y sumarlo a nuestras capacidades de ingeniería internas, creemos que ahora tenemos un equipo muy sólido —quizás uno de los mejores— para construir la inferencia como un gran sistema", dijo Chernin. La traducción económica es directa: un mejor rendimiento del sistema de inferencia significa una mejor economía de tokens para el cliente, una mejor utilización para Nebius y un posicionamiento competitivo más fuerte en cuanto a precio-rendimiento.
Por qué el software es la clave del margen, incluso si no se monetiza directamente
Liani presionó sobre si el enfoque en software y full-stack se traduce realmente en márgenes más altos en la práctica. La respuesta de Chernin evitó la habitual evasividad de las neoclouds sobre la economía unitaria. El argumento central es la opcionalidad del lado de la demanda: una plataforma que puede servir a 10.000 clientes siempre tendrá un mejor poder de fijación de precios que una que solo puede servir a 10. "Cuantas más opciones atractivas tengas, más precios tienes", afirmó, basándose en su experiencia en publicidad digital. La capacidad de abstraer el hardware del cliente —lo que significa que Nebius, no el comprador, decide qué clúster de GPU maneja una carga de trabajo de inferencia determinada— crea palancas de optimización que se traducen directamente en beneficios económicos para ambas partes.
También fue explícito al señalar que el software no se monetiza necesariamente como un producto independiente. "No monetizas el software directamente, pero lo construyes para desbloquear nuevos casos de uso y darte más palancas de optimización para el cliente y, como resultado, para ti mismo". Este es un matiz importante para los inversores que podrían estar buscando una línea de ingresos de software discreta que no existe. El beneficio en el margen está integrado en las tasas de utilización, el poder de fijación de precios y la capacidad de servir cargas de trabajo más diversas y de mayor valor desde la misma base de infraestructura.
Los contratos con hiperescaladores financian el negocio real
Sobre la mezcla de clientes, Chernin fue franco acerca del papel que desempeñan los grandes contratos con hiperescaladores para financiar las ambiciones más amplias de Nebius. Trabajar con clientes como Microsoft o Meta no representa el destino estratégico a largo plazo; el objetivo declarado de Nebius es una cartera diversificada de empresas nativas de IA, startups en etapa de crecimiento y empresas establecidas. Sin embargo, los grandes contratos mayoristas proporcionan el capital para aumentar la capacidad más rápidamente y financiar el resto del negocio de manera más agresiva. Según se informa, la empresa tiene de tres a cuatro clientes compitiendo por cada GPU, lo que Chernin describió como un indicador directo del apalancamiento de precios del lado de la demanda.
La diversificación se extiende más allá del arquetipo de cliente a la estructura del contrato: Nebius mantiene una mezcla de acuerdos a largo plazo, acuerdos a corto plazo y capacidad spot que puede exigir una prima por disponibilidad inmediata. Este enfoque de cartera le otorga a la empresa una flexibilidad comercial de la que carecen los operadores puros de bare-metal.
Cadena de suministro: los centros de datos propios son la clave para el segundo semestre de 2026 y más allá
La restricción vinculante para Nebius —como para toda neocloud— sigue siendo la capacidad de poner en línea espacio de centro de datos alimentado y conectado lo suficientemente rápido como para satisfacer la demanda. Chernin señaló que una parte muy significativa de la nueva capacidad que entrará en funcionamiento a partir de finales de 2026 corresponderá a centros de datos que Nebius construye por sí misma desde cero, en lugar de arrendar instalaciones de terceros. Los centros de datos construidos por la propia empresa mejoran la estructura de costos, brindan un mayor control sobre los plazos y reducen la dependencia de terceros. Gestionar aproximadamente una docena de proyectos de centros de datos en paralelo a través de múltiples regiones también actúa como cobertura: los retrasos en cualquier proyecto individual no crean una crisis de entrega porque la cartera está deliberadamente sobresuscrita. La naturaleza distribuida de las cargas de trabajo de inferencia refuerza esto: a diferencia de los grandes clústeres de entrenamiento que exigen un cómputo concentrado en una sola ubicación, la inferencia puede ser servida desde instalaciones dispersas geográficamente, lo que añade mayor flexibilidad de programación.
Sobre el riesgo de los precios de los productos básicos y los chips, Chernin se mostró medido pero confiado: los contratos más grandes tienen el suministro asegurado y, en el entorno actual, la presión de la demanda sobre los precios es una fuerza mucho más potente que la inflación de costos de los componentes.