Nebius: De neocloud gebouwd voor inference, agents en marges — niet enkel voor megawatt
Bank of America 2026 Global Technology Conference, 3 juni 2026
Roman Chernin, Chief Business Officer van Nebius Group, schoof aan bij analist Tal Liani van Bank of America tijdens de 2026 Global Technology Conference van de bank. Hij zette uiteen waarom Nebius naar eigen zeggen structureel beter gepositioneerd is om te concurreren met zowel hyperscalers als andere neoclouds, nu de markt voor AI-infrastructuur verschuift van pure rekenkracht naar inference en agent-gestuurde workloads. Het gesprek leverde twee opvallende en voor beleggers relevante inzichten op: een heldere uiteenzetting over hoe de softwarestack van Nebius de adresseerbare klantenbasis direct vergroot en de marges versterkt, en de strategische beweegredenen achter de twee recente overnames, Eigen en Clarifai. Samen vormen zij volgens het management een van de sterkste engineeringteams in de markt voor inference op grote schaal.
Geen water verkopen in de woestijn — maar het leidingsysteem
Liani opende het gesprek door de huidige AI-infrastructuurhausse botweg te duiden: "Datacenter-capaciteit verkopen is nu als water verkopen op een hete dag in de woestijn." De repliek van Chernin was even direct als strategisch van belang: "Wij verkopen geen datacenter-capaciteit. Wij verkopen een product dat daarbovenop is gebouwd." Dit onderscheid is geen marketingtaal; het weerspiegelt een bewuste en gelaagde go-to-market-architectuur die Nebius heeft opgezet rondom specifieke klantarchetypen, waarbij elk type AI-infrastructuur op een ander abstractieniveau consumeert.
Aan de basis staan de hyperscalers en grote frontier labs die behoefte hebben aan bare-metal rekenkracht op grote schaal, zonder poespas. Daarboven bevinden zich wat Chernin "AI-Native Labs" of "Neolabs" noemt — honderden, mogelijk duizenden op onderzoek gerichte organisaties die managed infrastructuur wensen, zodat zij zich kunnen concentreren op trainingstaken zonder hun eigen volledige softwarestack te hoeven beheren. Nebius bedient deze groep via wat het een multi-tenant cloud noemt. De volgende laag bestaat uit bouwers van verticale AI-producten — bedrijven als Cursor in softwareontwikkeling, Harvey of Legora in de juridische sector, Gamma in content en Clay in CRM — die helemaal niet in GPU-uren denken. Zij consumeren modellen als een dienst, en voor hen heeft Nebius een managed inference-platform gebouwd genaamd Nebius Token Factory. Daarbovenop bevindt zich de opkomende laag van agents, waar ontwikkelaars geen modellen meer zullen kiezen of tokenprijzen vergelijken, maar simpelweg resultaten van agent-executie zullen inkopen.
"Onze productstrategie is om hen daar te ontmoeten," aldus Chernin, die de filosofie beschreef om elke opeenvolgende golf van AI-consumptie te volgen in plaats van zich vast te pinnen op één abstractielaag. De commerciële logica is eenvoudig: elke laag hoger in de stack vergroot het bereik van Nebius van een handvol hyperscalers naar duizenden en uiteindelijk tienduizenden ontwikkelaars en bouwers.
Inference zorgt al voor tractie — en verbetert de CapEx-economie
Chernin bevestigde dat inference al het snelst groeiende segment binnen de omzetmix van Nebius is en vandaag de dag al een "significante, positieve impact op de onderneming" heeft, in plaats van in de verre toekomst. Dit is cruciaal voor beleggers die het traject van het bedrijf op de korte termijn modelleren. Trainingscontracten zijn grotendeels eenmalige, infrastructuurgedreven verkopen waarbij klanten precies weten welk GPU-cluster ze willen en voor hoe lang. Inference is structureel anders: het is terugkerend, groeit mee met de klant en stelt Nebius in staat waarde te onttrekken via software-optimalisatie in plaats van enkel via hardwarelevering.
Chernin maakte een bijzonder relevant punt over de CapEx-levenscyclus. Wanneer er nieuwere chips op de markt komen en grote klanten hun frontier-trainingsworkloads migreren naar de nieuwste hardware, worden oudere clusters geen "stranded assets" — ze worden opnieuw ingezet voor inference-workloads. Hij noemde de samenwerking tussen Anthropic en SpaceX als een publiek voorbeeld van deze dynamiek, waarbij SpaceX de training verplaatste naar een nieuwer cluster terwijl de oorspronkelijke hardware productief bleef voor inference. Voor een kapitaalintensieve onderneming als Nebius is het verlengen van de omzetgenererende levensduur van een GPU-cluster een directe verbetering van het rendement op het geïnvesteerde vermogen.
De overnames van Eigen en Clarifai: het bouwen van de inference-engine
De twee recente overnames door Nebius — Eigen, gevestigd in San Francisco, en Clarifai, met het hoofdkantoor aan de oostkust — zijn specifiek gericht op het versterken van het Token Factory inference-platform. De rationale is technisch zo precies dat deze in detail begrijpen de moeite waard is.
Eigen is een op onderzoek gericht team, opgericht door MIT-promovendi, dat zich focust op inference-optimalisatie op modelniveau: het extraheren van meer token-doorvoer uit een enkele GPU. De kerncompetentie van Clarifai is inference als systeem — hoe je duizenden GPU's die miljoenen gebruikers bedienen efficiënt orkestreert, inclusief caching-strategieën, het schalen van nodes tijdens pieken in de vraag en snelle afschaling wanneer het verkeer afneemt. "Door dit te combineren met onze eigen interne engineeringcapaciteiten, geloven we dat we nu een zeer sterk — misschien wel het beste — team hebben om inference als een groot systeem te bouwen," aldus Chernin. De economische vertaling is direct: betere prestaties van het inference-systeem betekenen betere token-economie voor de klant, een hogere benuttingsgraad voor Nebius en een sterkere concurrentiepositie op het gebied van prijs-prestatieverhouding.
Waarom software het verhaal achter de marges is, ook al wordt het niet direct gemonetiseerd
Liani vroeg door of de focus op software en de volledige stack in de praktijk daadwerkelijk vertaalt naar hogere marges. Het antwoord van Chernin sneed door de gebruikelijke vaagheid van neoclouds over de eenheidseconomie heen. Het kernargument is optionaliteit aan de vraagzijde: een platform dat 10.000 klanten kan bedienen, zal altijd meer prijsmacht hebben dan een platform dat er slechts 10 kan bedienen. "Hoe meer aantrekkelijke opties je hebt, hoe meer prijzen je kunt hanteren," zei hij, puttend uit zijn achtergrond in digitale advertenties. Het vermogen om hardware te abstraheren van de klant — wat betekent dat Nebius, en niet de koper, beslist welk GPU-cluster een bepaalde inference-workload verwerkt — creëert optimalisatiehefbomen die zich direct vertalen naar economisch voordeel voor beide partijen.
Hij was er ook expliciet over dat software niet noodzakelijkerwijs als een op zichzelf staand product wordt gemonetiseerd. "Je monetiseert software niet per se direct, maar je bouwt de software om nieuwe use cases te ontsluiten en jezelf meer optimalisatiehefbomen te geven voor de klant — en als resultaat daarvan voor jezelf." Dit is een belangrijk nuanceverschil voor beleggers die wellicht zoeken naar een afzonderlijke software-omzetstroom die niet bestaat. Het margevoordeel zit ingebakken in benuttingsgraden, prijsmacht en het vermogen om meer diverse en hoogwaardige workloads te bedienen vanaf dezelfde infrastructuurbasis.
Hyperscaler-contracten financieren het echte bedrijf
Wat betreft de klantenmix was Chernin open over de rol die grote hyperscaler-contracten spelen bij het financieren van de bredere ambities van Nebius. Werken met klanten als Microsoft of Meta is niet de strategische eindbestemming — het uitgesproken doel van Nebius is een gediversifieerde portfolio van AI-native ondernemingen, groeibedrijven en gevestigde organisaties. Maar grote wholesale-contracten bieden het kapitaal om sneller capaciteit op te bouwen en de rest van het bedrijf agressiever te financieren. Naar verluidt concurreren er drie tot vier klanten om elke GPU, wat Chernin omschreef als een directe indicator voor prijsmacht aan de vraagzijde.
Diversificatie strekt zich verder uit dan alleen het klantenarchetype naar de contractstructuur: Nebius hanteert een mix van langetermijndeals, kortlopende overeenkomsten en spot-capaciteit, waarvoor een premie kan worden gevraagd voor onmiddellijke beschikbaarheid. Deze portfolio-aanpak geeft het bedrijf een commerciële flexibiliteit die pure bare-metal-operators ontberen.
Toeleveringsketen: Eigen datacenters zijn de sleutel voor 2H26 en daarna
De beperkende factor voor Nebius — zoals voor elke neocloud — blijft het vermogen om van stroom voorziene en verbonden datacenterruimte snel genoeg operationeel te krijgen om aan de vraag te voldoen. Chernin merkte op dat een zeer aanzienlijk deel van de nieuwe capaciteit die vanaf eind 2026 online komt, afkomstig zal zijn uit datacenters die Nebius zelf vanaf de grond opbouwt, in plaats van het huren van faciliteiten van derden. Zelfgebouwde datacenters verbeteren de kostenstructuur, bieden meer controle over tijdlijnen en verminderen de afhankelijkheid van externe verhuurders. Het parallel uitvoeren van ongeveer een dozijn datacenterprojecten in verschillende regio's fungeert bovendien als een hedge — vertragingen in een enkel project leiden niet tot een leveringscrisis omdat de portfolio bewust overtekend is. Het gedistribueerde karakter van inference-workloads versterkt dit: in tegenstelling tot grote trainingsclusters die geconcentreerde rekenkracht op één locatie vereisen, kan inference worden bediend vanuit geografisch verspreide faciliteiten, wat extra planningsflexibiliteit biedt.
Over het risico van grondstoffen- en chipprijzen was Chernin gematigd maar zelfverzekerd: de grootste contracten hebben de levering vastgelegd, en in het huidige klimaat is de druk van de vraag op de prijzen een veel sterkere kracht dan de inflatie van de inkoopkosten voor componenten.