DruckFin

Debat over architectuur: mede-uitvinder van de Transformer Lukasz Kaiser erkent dat een opvolger kan winnen — mits deze 10x beter presteert

Pathway organiseerde op 5 mei 2026 een live debat in San Francisco, waarin de uitvinders van de Transformer het opnamen tegen de pioniers van wat daarna komt

Het meest opvallende moment tijdens het live architectuurdebat van Pathway was niet dat een uitdager een rake klap uitdeelde, maar dat de regerend kampioen zich bereid toonde tot overgave. Lukasz Kaiser, mede-uitvinder van de Transformer en de onderzoeker achter GPT-4, GPT-5 en de o1/o3-redeneermodellen, vertelde het publiek dat als een Post-Transformer-architectuur een betere schaalcurve kan aantonen — zelfs bij vijftig keer de 'wall-clock'-kosten op huidige hardware — hij geen andere keuze zou hebben dan toe te geven. "Als je me een model laat zien dat constant vijftig keer trager is, maar op een betere helling zit, win je. Dan moet ik het opgeven. De hardware volgt wel als je dat aantoont." Dat is een opener deur dan de meeste investeerders die de uitrol van AI-infrastructuur volgen waarschijnlijk hadden aangenomen.

De 10x-norm: Waarom hardware niet langer het excuus van weleer is

Het argument van de 'hardware lottery' — het idee dat de Transformer deels won omdat GPU-matrixvermenigvuldiging toevallig perfect aansloot bij de architectuur — stond de hele avond centraal. Llion Jones, die in dit debat een unieke positie inneemt als mede-uitvinder van de Transformer die nu strijdt voor het Post-Transformer-kamp en medeoprichter is van Sakana AI, stelde botweg dat "de doorbraak van de Transformer diep wordt misbegrepen." In zijn visie verspillen onderzoekers die aandachtslagen en residual connections blijven herschikken op zoek naar het volgende ding hun tijd. De echte doorbraak was hardware-parallellisatie, en die optimalisatie valt niet opnieuw te ontdekken.

Kaiser bracht daar een historisch voetnootje tegenin dat veel gewicht in de schaal legt. De eerste generatie TPU's werd gebouwd voor RNN's, niet voor Transformers. Toen aandachtmodellen daar voor het eerst op draaiden, moest de softmax worden uitbesteed aan de CPU omdat de exponent niet in de hardware zat. "Ze waren tergend traag," zei Kaiser. "Het moest bewijzen dat het goed genoeg was om het hardwarebedrijf van koers te laten veranderen, en nu, acht jaar later, kunnen ze het razendsnel draaien." Zijn punt was dat een superieure architectuur zijn eigen hardware zal afdwingen — maar de lat ligt niet op 2x beter. Die ligt op 10x. Hij voegde daar een praktische observatie aan toe die de berekeningen voor onderzoekers vandaag de dag verandert: AI-agents kunnen nu CUDA schrijven. "Veel zaken die pijnlijk traag zijn op de GPU kun je overwinnen met een goede kernel, die je zelf niet meer hoeft te schrijven." De implicatie voor iedereen die Post-Transformer-onderzoek financiert of bouwt, is dat de implementatie-moat rond de Transformer sneller kleiner wordt dan de benchmarkcijfers suggereren.

De BDH-architectuur en de PageRank-analogie

Adrian Kosowski, Chief Scientific Officer bij Pathway en uitvinder van de Dragon Hatchling-architectuur, maakte wellicht het meest conceptueel ambitieuze punt van de avond. Zijn claim was niet dat de Transformer fout is, maar dat noch de Transformer, noch enige huidige architectuur het "leitmotiv" van intelligentie heeft ontdekt — het onderliggende proces, analoog aan PageRank voor informatieverzameling, dat alle vormen van intelligent gedrag verenigt. "In de jaren negentig was er een probleem dat slechts een minuscuul onderdeel van intelligentie was: het indexeren van informatie. En toen kwam er een bedrijf met één groot thema, één wiskundige vergelijking en één manier om het te implementeren." Google's PageRank en MapReduce bouwden niet simpelweg een betere AltaVista. Ze herdefinieerden het probleem volledig. Kosowski's argument is dat we dat moment voor intelligentie zelf nog niet hebben gehad.

Zijn architecturale antwoord, de BDH-benadering die bij Pathway wordt ontwikkeld, richt zich op latent redeneren in hoogdimensionale ruimtes — het vermogen om te denken zonder gedachten te externaliseren naar taal-tokens. "Transformers denken in taal. Ze denken niet in latente gedachten. Ze memoriseren hun gedachten, maar ze denken in taal." Dit is niet slechts een filosofisch onderscheid. Het heeft directe gevolgen voor de redeneerefficiëntie en het hardwaregebruik tijdens inference, wat Kosowski identificeerde als de volgende grens. "Nu we ons begeven in een wereld waar steeds meer tijd wordt besteed aan inference en redeneren, is het een volkomen terechte vraag of de Transformer ook de ultieme architectuur is wat betreft hardwaregebruik tijdens het redeneren."

De hedge van Liquid AI: Transformers en Post-Transformers, niet versus

Mathias Lechner, medeoprichter en CTO van Liquid AI en research affiliate bij MIT CSAIL, was de meest pragmatische stem op het podium, en zijn kader is waarschijnlijk het meest commercieel eerlijk. Liquid AI kiest geen kant. Het bouwt wat werkt voor de inzetbeperking waar het voor staat. Lechner beschreef hoe hij een taalmodel met de capaciteiten van GPT-3 op een Raspberry Pi draaide met ongeveer veertig tokens per seconde — bereikt niet door trouw te zijn aan één architectuur, maar door te putten uit Transformer-componenten, SSM's, gated linear attention en convolutionele lagen, afhankelijk van de vereisten. "Wanneer er een nieuw aandachtmechanisme wordt geïntroduceerd door DeepSeek, ben ik blij. En elke keer dat er een nieuw Post-Transformer-model wordt uitgebracht, ben ik ook blij, omdat het me in staat stelt te putten uit een bredere set architecturen."

Lechner opperde ook de meest provocerende langetermijnvoorspelling van de avond, bijna terloops: dat AI-agents, zelf gebouwd op Transformers, wel eens degenen zouden kunnen zijn die uiteindelijk de vervanger van de Transformer ontdekken. "Ik geloof dat ze hun eigen vervanger zullen vinden. Ik ben ervan overtuigd dat de Transformer zijn eigen vervanging zal vinden." Het werd zonder drama gezegd, maar de implicatie — dat de volgende architecturale doorbraak een emergente uitkomst van het huidige paradigma kan zijn in plaats van een doelgericht menselijk onderzoeksprogramma — verdient meer aandacht dan het in de zaal kreeg.

Continual learning: De ongemakkelijke zwakte

Een van de scherpste discussies van de avond betrof 'continual learning', wat Jones met zichtbare frustratie omschreef als de centrale structurele zwakte van het Transformer-paradigma. "We hebben iets genomen dat fundamenteel is gebouwd met statische gewichten, en we zeggen: 'hoe kunnen we daar iets bovenop bouwen zodat we dynamische gewichten krijgen?' Ik zou veel liever zien dat iemand iets ontwikkelt dat vanaf de basis is ontworpen om dynamische gewichten te hebben." Kaiser erkende, in een moment van oprechte intellectuele eerlijkheid, dat het in-context learning-mechanisme van de Transformer iets doet dat lijkt op het dynamisch updaten van gewichten — maar voegde de kanttekening toe: "het ding dat me echt pijn doet, is dat je 'misschien' moet zeggen." Er is, zoals hij opmerkte, geen serieuze benchmark die de kwaliteit van in-context learning meet in plaats van eenvoudige retrieval. 'Needle-in-a-haystack'-tests zijn retrieval-problemen, geen leerproblemen, en het veld heeft nog geen instrument gebouwd om het onderscheid daartussen te maken.

Perplexity als de benchmark die alles zou moeten aansturen

Een van de meest bruikbare inzichten uit het debat was Kaisers pleidooi voor 'perplexity' op een 'held-out' dataset als de superieure benchmark die de industrie al systematischer zou moeten gebruiken. Hij beschreef hoe, tijdens het oorspronkelijke Transformer-onderzoek, het laten vallen van de BLEU-score ten gunste van perplexity de juiste keuze bleek — het correleerde wanneer dat nodig was en bleef nuttig lang nadat BLEU-scores verzadigd waren. "De manier waarop OpenAI zijn modellen echt benchmarkt is perplexity op de interne codebase, en ik denk dat veel laboratoria dit doen." Hij ging verder en opperde het idee van een klein bedrijf dat een private, nooit uitgebrachte 'holdout'-set van tekst en code onderhoudt, een vergoeding per evaluatie vraagt en schaalcurves publiceert over architecturen heen. Jones was het er direct mee eens. "Ik zou graag zien dat mensen terugkeren naar het pushen van perplexity." Voor onderzoekers en investeerders die proberen te evalueren welke architecturale weddenschappen daadwerkelijk renderen en welke benchmark-getunede artefacten zijn, doet dit kader ertoe.

Het lokale-minimumprobleem en het pleidooi voor een radicale koerswijziging

Jones keerde herhaaldelijk terug naar wat hij het meest ondergewaardeerde probleem van het veld noemde: dat het succes van de Transformer zelf de ontdekking van zijn opvolger in de weg staat. "Ik denk echt dat het succes van de Transformer ons ervan weerhoudt het volgende ding te vinden. Mensen concentreren zich veel te veel op deze architectuur, en die is zo succesvol en zo goed in wat hij doet, dat we nu echt vastzitten in een lokaal minimum." Zijn meest openhartige bekentenis ging over de economie van die valstrik. Een bedrijf als OpenAI handelt rationeel door in te zetten op Transformers — daar ligt hun moat. Maar startups, zo betoogde hij, zouden het tegenovergestelde moeten doen. "Het is logischer om geld te steken in de 'long bets', en echt de tijd te nemen om te vinden wat er daarna komt. OpenAI zat op een gegeven moment in die positie. Zij ontdekten dat Transformers beter schaalden dan anderen, en ze zijn er erg goed mee weggekomen."

De meest speculatieve onthulling van de avond kwam en passant van Jones: dat sommige architecturen die zijn team bij Sakana AI verkent, in principe wellicht niet trainbaar zijn via backpropagation. Hij gaf geen verdere details, maar de opmerking signaleert dat ten minste één goed gefinancierd laboratorium daadwerkelijk buiten het huidige paradigma opereert in plaats van alleen de randjes te versieren.

De veiligheidsdimensie die niemand serieus genoeg neemt

Kaiser wierp tegen het einde van de avond een veiligheidspunt op dat haaks staat op de conventionele wijsheid dat 'chain-of-thought'-transparantie garanties biedt voor interpreteerbaarheid. "Je hebt deze tokens, en de tokens zijn elk een paar bytes. En dan heb je de activaties daarboven, en dat zijn tientallen lagen van duizenden floats, en we hebben absoluut geen idee wat daar gebeurt." Zijn waarschuwing was direct: de huidige getrouwheid van chain-of-thought-redeneringen aan het onderliggende modelgedrag is een product van pre-training-prikkels, geen architecturale garantie. "Op een dag zie je misschien dezelfde woorden staan, terwijl de gedachten totaal anders zijn, en ik weet niet of je dat zult merken." Jones voegde daar een contra-intuïtief gevolg aan toe — dat een Post-Transformer-architectuur die nauwer aansluit bij hoe biologische neurale systemen daadwerkelijk werken, paradoxaal genoeg interpreteerbaarder en veiliger zou kunnen blijken dan de Transformer die hij vervangt.

Het publiek stemde Post-Transformers tot winnaar op de 'klapometer' van de avond, hoewel de marge als klein werd omschreven. De meest duurzame conclusie is dat een van de architecten van de Transformer zelf nu publiekelijk de voorwaarden heeft gesteld waaronder hij de architectuur zou verlaten — en die voorwaarden zijn beter haalbaar dan de huidige benchmarkcultuur doet vermoeden.

Disclaimer: Dit artikel is uitsluitend bedoeld voor informatieve doeleinden en vormt geen beleggingsadvies of een aanbeveling om effecten te kopen, verkopen of aan te houden. Onze analisten bieden gedetailleerde verslaggeving van bedrijfsevents maar kunnen fouten maken, doe altijd je eigen onderzoek. De geuite opvattingen en meningen weerspiegelen niet noodzakelijkerwijs die van DruckFin. We hebben niet alle hierin gebruikte informatie onafhankelijk geverifieerd en deze kan fouten of weglatingen bevatten. Raadpleeg een gekwalificeerde financieel adviseur voordat je een beleggingsbeslissing neemt. DruckFin en haar dochterondernemingen wijzen elke aansprakelijkheid af voor eventuele verliezen die voortvloeien uit het vertrouwen op deze inhoud. Zie voor de volledige voorwaarden onze Gebruiksvoorwaarden.