DruckFin

SemiAnalysis: Efficiëntie bij reinforcement learning-training draait om throughput, niet alleen om schaalbare rekenkracht

Experimenten met open-source RL-frameworks onthullen het kritieke knelpunt bij het opschalen van modelcapaciteiten - 16 juni 2026

Reinforcement learning (RL) post-training is uitgegroeid tot het geheime ingrediënt achter de meest capabele AI-modellen, maar het opschalen van RL is enorm kostbaar. SemiAnalysis heeft uitgebreide experimenten uitgevoerd met open-source RL-frameworks om te begrijpen wat de systeemefficiëntie bij RL-training werkelijk aanstuurt. De verrassende conclusie: het gaat er niet om meer rekenkracht tegen het probleem aan te gooien, maar om het nauwkeurig op elkaar afstemmen van de throughput tussen twee kerncomponenten: de generator die trainingsdata creëert en de trainer die daarvan leert.

Het onderzoeksteam voerde experimenten uit met modellen zoals Qwen3-235B en GLM-5 op verschillende RL-frameworks, waaronder Prime RL, slime en verl. Hun bevindingen vormen een fundamentele uitdaging voor het gangbare denken over de inrichting van RL-infrastructuur.

Het wachtrijprobleem waar niemand over praat

SemiAnalysis duidt de efficiëntie van RL-training met een elegant mentaal model: een wachtrij waarin de generator rollouts produceert en de trainer deze verbruikt. Wanneer de generator trager is, komt de trainer stil te staan. Wanneer de generator sneller is, verouderen de samples in de wachtrij, wat leidt tot wat het team "policy staleness" noemt – een fenomeen waarbij het model traint op outputs die zijn gegenereerd door oudere versies van zichzelf, wat de leerkwaliteit aantast.

In hun eerste grote experiment met Qwen3-235B-Thinking op 64 H200 GPU's voor training en 192 GPU's voor generatie, raakte het systeem ernstig beperkt door de generatiecapaciteit. De trainer verbruikte 2,75 samples per seconde, maar was 30% van de tijd inactief, met een model-FLOPs-benutting van slechts 10,5%. De generator leverde slechts 1,95 samples per seconde, ondanks het gebruik van driemaal de rekenkracht van de trainer. De boosdoener: het model produceerde extreem lange antwoorden met uitgebreide redeneertrajecten, en de variatie in antwoordlengte veroorzaakte ernstige problemen met tail latency.

Om dit op te vangen moest het team 60% van de verzonden rollouts verwerpen via een techniek genaamd oversampling – het lanceren van meer gelijktijdige rollouts dan nodig en het verwijderen van onvoltooide exemplaren. Deze inefficiënte aanpak onderstreept hoe cruciaal inferentie-efficiëntie wordt tijdens RL-training, een punt dat in de huidige discussies over RL-infrastructuur onderbelicht lijkt.

Modelgedrag verschuift en creëert bewegende doelen

Een tweede experiment met GLM-5 op 128 H200 GPU's bracht een andere dimensie van het probleem aan het licht die het ontwerp van RL-systemen uniek uitdagend maakt: het gedrag van het model verandert tijdens de training op een manier die de systeembeperkingen verschuift. In de loop van de training verdrievoudigde de gemiddelde antwoordlengte per beurt en het aantal tool calls van 20 naar 51. Dit verhoogde de sequentielengtes en verschoof de werklast naar een profiel dat zwaar leunt op prefill, waardoor de optimale infrastructuurconfiguratie halverwege de training fundamenteel veranderde.

Erger nog: het curriculum bleek te eenvoudig voor het model – 55% van de problemen had een slagingspercentage van 100%, waarbij elke rollout in de groep slaagde. Wanneer elke rollout dezelfde beloning ontvangt, resulteert de advantage-berekening in nul en draagt de groep geen leersignaal bij. Zoals SemiAnalysis uitlegt, gebeurt dit wanneer "het slagingspercentage nabij de 100% of 0% ligt" – de taak is dan óf te makkelijk óf te moeilijk. De gemiddelde beloning bleef stagneren ondanks de investering in rekenkracht.

De gecombineerde effecten resulteerden in een systeem dat zwaar beperkt werd door de generatie, waarbij de trainer 74% van de tijd zat te wachten en de consumptiesnelheid vijfmaal hoger lag dan de effectieve productiesnelheid van de generator. De effectieve productiesnelheid van de generator stortte in door gefilterde samples die geen leersignaal boden.

De schaalmuur van sandboxes

Een derde experiment op GB300-hardware verhoogde het aantal gelijktijdige rollouts van 96 naar 960 en stuitte op een harde infrastructuurmuur die zelden wordt besproken: sandbox-schaling. Elke rollout vereist ten minste één gecontaineriseerde sandbox om code uit te voeren en beloningen te bieden. Bij 960 gelijktijdige rollouts stuitte het team op "sandbox initialization dead errors en een vertraging van 1 uur bij het opstarten van sandboxes." Ze moesten terugschalen naar 96 gelijktijdige rollouts, maar zagen vervolgens een lage rollout-efficiëntie.

Dit onthult een fundamentele beperking in RL-training voor codeerassistenten, een markt die SemiAnalysis momenteel waardeert op meer dan $30 miljard aan jaarlijkse terugkerende omzet over zes grote spelers, en die tegen het einde van het jaar de $100 miljard zal overschrijden. De sandbox-infrastructuur moet lineair meeschalen met het aantal gelijktijdige rollouts, en sandbox-dienstverleners zoals Modal staan voor unieke uitdagingen, waaronder opstartvertragingen, fluctuerende vraag en robuustheid tegen onverwacht modelgedrag, zoals het creëren van een miljoen bestanden die het geheugen uitputten.

Policy staleness: de verborgen belasting van asynchrone training

Klassieke policy gradient-algoritmen gaan ervan uit dat alle rollouts in een groep afkomstig zijn van dezelfde modelgewichten. Dit dwingt synchrone uitvoering af waarbij de generator de gewichten niet kan bijwerken totdat de huidige batch is voltooid, wat leidt tot enorme inefficiëntie. De industrie is overgestapt op asynchrone technieken, met name PipelineRL, die gewichtsupdates mogelijk maakt terwijl rollouts nog worden gegenereerd.

Dit creëert echter policy staleness – samples worden gegenereerd door een mengeling van oude en nieuwe policies. SemiAnalysis identificeert drie niveaus van staleness: trajectory-niveau (het gat tussen de policy-versie waarmee de rollout begon en de huidige versie), token-niveau (gewichtsupdates die halverwege een rollout plaatsvinden, waardoor verschillende tokens van verschillende policy-versies komen) en environment state-niveau (vooral relevant voor stateful omgevingen).

Het framework slime implementeert een "partial rollout"-functie die achterblijvende rollouts opslaat in een buffer en ze in latere batches herstart, wat de tail latency vermindert. Maar dit introduceert een sluipende vorm van staleness op het niveau van de omgevingsstatus. Zoals het team uitlegt: "De sandbox waarin het ontwaakt is geen schone repo. De sandbox bevat de half toegepaste bewerkingen, aangemaakte bestanden en de status van de werkmap die de oude policy tijdens eerdere beurten heeft geproduceerd. De nieuwere policy moet nu doorgaan vanuit een situatie die hij niet zelf heeft gecreëerd en die hij niet noodzakelijkerwijs zelf zou hebben gecreëerd." Dit corrumpeert het leersignaal tijdens de advantage-attributie.

De economische realiteit is meedogenloos

SemiAnalysis voerde een TCO-analyse (Total Cost of Ownership) uit waarbij hun experimenten werden vergeleken met Tinker van Thinking Machines Lab, een beheerd RL-trainingsplatform. Voor H200-infrastructuur berekenen zij $1,59 per GPU per uur aan totale eigendomskosten, waarbij kapitaalkosten 72,5% voor hun rekening nemen. De serverkosten blijven de dominante factor met $258.000 per server, oftewel 71% van de totale initiële investering van $361.000 per server.

Bij hun Qwen3-235B-experiment met slime kwamen ze uit op $16,23 per miljoen tokens – 4,86 keer hoger dan het gepubliceerde doel van Tinker van $4,86 per miljoen tokens. Bij Prime RL werd het gat kleiner tot 2,01 keer, met $6,90 per miljoen tokens tegenover het doel van $3,43 van Tinker. Het scherpe verschil tussen de kosten van slime en Prime RL onderstreept hoezeer inferentie-efficiëntie de totale kosten bepaalt.

SemiAnalysis veronderstelt dat Tinker zijn kostenvoordeel primair behaalt door multi-tenancy. Tinker biedt een Low-Rank Adaptation (LoRA) trainings-API waarbij meerdere gebruikers modellen trainen die de meeste gewichten delen. "Aan de kant van de trainer kan Tinker de efficiëntie aanzienlijk verhogen door trainingsverzoeken van verschillende gebruikers te batchen, met enkele LoRA-specifieke aanpassingen. Aan de kant van de generatie verzacht multi-tenancy het effect van achterblijvers door inactieve slots op te vullen met rollouts van andere huurders wanneer een run vastloopt."

Het team verwacht dat Thinking Machines Lab ook inferentie-optimalisaties toepast, zoals prefill-decode disaggregation, en mogelijk Blackwell GPU's gebruikt, die volgens hun InferenceX-analyse aanzienlijke inferentiewinsten bieden ten opzichte van Hopper. Het voordeel van multi-tenancy in combinatie met infrastructuur- en hardwareverbeteringen creëert het dramatische kostenverschil.

Anthropic's inzet op RL-schaling

Het rapport biedt belangrijke context voor waarom dit relevant is. CEO Dario Amodei van Anthropic heeft beschreven dat RL "dezelfde soort schaling vertoont als pre-training ooit deed, waarbij de prestaties log-lineair stijgen naarmate men langer traint." Maar die schaling is enorm kostbaar, waardoor de efficiëntie van RL-systemen cruciaal is om te bepalen hoeveel RL men zich kan veroorloven en in hoeverre de modelcapaciteiten kunnen toenemen.

Concreet scoort Claude Opus 4.8 69,2% op SWE-bench Pro en 74,6% op Terminal-Bench 2.1, en RL-training wordt beschreven als "een belangrijk onderdeel van wat de score drijft." Deze agentische codeercapaciteiten komen niet voort uit pre-training alleen – ze vereisen uitgebreide en dure post-training via reinforcement learning.

De open-source gemeenschap heeft opmerkelijke vooruitgang geboekt. SemiAnalysis brengt de lijn in kaart van OpenRLHF, een van de vroege inspanningen na de release van DeepSeek R1, tot populaire frameworks zoals slime en verl. Talrijke OpenRLHF-maintainers ontwikkelden later deze frameworks, wat leidde tot levendige Chinese gemeenschappen rondom RL-training waarvan het team gelooft dat ze "positief hebben bijgedragen aan recente vorderingen van Chinese modellen." De frameworks hebben academische onderzoekers ook in staat gesteld nieuwe algoritmen en technieken te ontwikkelen, waardoor RL-onderzoek binnen het bereik van de academische wereld is gekomen.

Gebruikerservaring van frameworks is belangrijker dan verwacht

Het team geeft eerlijke beoordelingen van de geteste frameworks. Prime RL krijgt lof voor de ergonomie – de meeste commando's werken via uv met configuratie in toml-bestanden, aangevuld met 'agent skill'-bestanden voor een vlottere integratie van AI-agents. De hub van RL-omgevingen en ondersteuning voor prefill-decode disaggregation springen eruit als sterke punten. De zware afhankelijkheid van uv zorgde echter voor frictie; het team besteedde veel tijd aan het "compileren en opnieuw installeren van flash attention 3 omdat we niet konden achterhalen waarom uv het deïnstalleerde."

Prime Sandbox, nog in bèta, genereerde veel mislukte runs laat in het proces. "Fouten omvatten onder meer 'dangling' sandboxes die het sandbox-quotum verbruikten, out-of-resource-fouten en problemen met kredietlimieten, waarvan er vele gedetecteerd hadden kunnen worden vóór het starten van een run."

Slime krijgt lof voor "schone en minimale abstracties" en in het bijzonder de hook-abstracties die maatwerk eenvoudig maken. Het ontwikkelingsteam krijgt hoge cijfers voor hun responsiviteit. Het voornaamste kritiekpunt: de focus op de 'co-located'-modus resulteerde in schaarse documentatie over asynchrone modi, waardoor het team de mechanismen "grotendeels door vallen en opstaan" moest achterhalen.

De sandbox-API van Modal krijgt lof voor de kwaliteit van de documentatie en de robuustheid van de service op kleine schaal. Bij hoge gelijktijdigheid ontstonden uitdagingen met 'dead initialization'-fouten en opstartvertragingen. Dit bleken achteraf resource-limieten op het account te zijn in plaats van harde platformlimieten – Modal verhoogde de limieten en het team bevestigde de stabiliteit bij hoge gelijktijdigheid. Toch onderstreept de ervaring de behoefte aan betere tools voor sandbox-observability en schaling-documentatie.

De rauwe eerlijkheid over de onvolkomenheden in open-source tools staat in contrast met de gebruikelijke leveranciersmarketing, maar het dient het institutionele publiek dat de uitdagingen in de praktijk moet begrijpen voordat er kapitaal wordt toegewezen aan RL-trainingsinfrastructuur.

Disclaimer: Dit artikel is uitsluitend bedoeld voor informatieve doeleinden en vormt geen beleggingsadvies of een aanbeveling om effecten te kopen, verkopen of aan te houden. Onze analisten bieden gedetailleerde verslaggeving van bedrijfsevents maar kunnen fouten maken, doe altijd je eigen onderzoek. De geuite opvattingen en meningen weerspiegelen niet noodzakelijkerwijs die van DruckFin. We hebben niet alle hierin gebruikte informatie onafhankelijk geverifieerd en deze kan fouten of weglatingen bevatten. Raadpleeg een gekwalificeerde financieel adviseur voordat je een beleggingsbeslissing neemt. DruckFin en haar dochterondernemingen wijzen elke aansprakelijkheid af voor eventuele verliezen die voortvloeien uit het vertrouwen op deze inhoud. Zie voor de volledige voorwaarden onze Gebruiksvoorwaarden.