DruckFin

Debatte um die Zukunft: Transformer-Miterfinder Lukasz Kaiser hält Post-Transformer-Architektur für möglich – bei zehnfacher Leistungssteigerung

Pathway veranstaltete am 5. Mai 2026 eine Live-Debatte in San Francisco, bei der die Erfinder der Transformer-Architektur auf die Pioniere der nächsten Generation trafen.

Der bemerkenswerteste Moment der Live-Debatte von Pathway war nicht etwa ein gezielter Schlag eines Herausforderers, sondern das Kapitulationsangebot des amtierenden Champions. Lukasz Kaiser, Miterfinder des Transformers und maßgeblich an der Entwicklung von GPT-4, GPT-5 sowie den o1/o3-Reasoning-Modellen beteiligt, erklärte dem Publikum: Sollte eine Post-Transformer-Architektur eine bessere Skalierungskurve aufweisen – selbst bei einer fünfzigmal höheren Rechenzeit auf aktueller Hardware –, hätte er keine andere Wahl, als dies anzuerkennen. „Wenn Sie mir ein Modell zeigen, das zwar konstant fünfzigmal langsamer ist, aber eine bessere Steigung aufweist, haben Sie gewonnen. Ich muss aufgeben. Die Hardware wird folgen, sobald Sie das beweisen.“ Das ist ein deutlich größeres Einfallstor, als die meisten Investoren, die den Aufbau der KI-Infrastruktur verfolgen, bisher vermutlich angenommen haben.

Die 10x-Hürde: Warum Hardware keine Ausrede mehr ist

Das Argument der „Hardware-Lotterie“ – die These, dass der Transformer nur deshalb gewann, weil die Matrixmultiplikation auf GPUs zufällig perfekt zu seiner Architektur passte – stand den ganzen Abend im Mittelpunkt. Llion Jones, der als Miterfinder des Transformers, der nun für die Post-Transformer-Seite kämpft, und als Mitgründer von Sakana AI eine einzigartige Position einnimmt, argumentierte unverblümt: „Der Transformer-Durchbruch wird grundlegend missverstanden.“ Seiner Ansicht nach verschwenden Forscher Zeit, wenn sie ständig Attention-Layer und Residual Connections neu anordnen, auf der Suche nach dem nächsten großen Ding. Der eigentliche Durchbruch sei die Hardware-Parallelisierung gewesen, und diese Optimierungsmöglichkeit sei nicht erneut zu entdecken.

Kaiser hielt mit einem historischen Detail dagegen, das Gewicht hat: Die erste Generation von TPUs wurde für RNNs entwickelt, nicht für Transformer. Als Attention-Modelle erstmals darauf liefen, musste das Softmax auf die CPU ausgelagert werden, da der Exponent nicht in der Hardware implementiert war. „Sie waren verdammt langsam“, so Kaiser. „Sie mussten erst beweisen, dass sie gut genug sind, damit das Hardware-Unternehmen den Kurs ändert – und acht Jahre später können sie diese Modelle sehr schnell ausführen.“ Sein Punkt: Eine hinreichend überlegene Architektur wird sich ihre eigene Hardware verdienen – aber die Hürde liegt nicht bei einer zweifachen Verbesserung, sondern bei einer zehnfachen. Zudem fügte er eine praktische Beobachtung hinzu, die das Kalkül für heutige Forscher verschiebt: KI-Agenten können mittlerweile CUDA schreiben. „Viele Dinge, die auf der GPU schmerzhaft langsam sind, lassen sich mit einem guten Kernel überwinden, den man heute nicht mehr selbst schreiben muss.“ Für alle, die Post-Transformer-Forschung betreiben oder finanzieren, bedeutet dies: Der Implementierungsgraben um den Transformer schließt sich schneller, als es die Benchmark-Zahlen vermuten lassen.

Die BDH-Architektur und die PageRank-Analogie

Adrian Kosowski, Chief Scientific Officer bei Pathway und Erfinder der Dragon-Hatchling-Architektur, lieferte das wohl konzeptionell ambitionierteste Argument des Abends. Er behauptete nicht, dass der Transformer falsch sei, sondern dass weder er noch irgendeine aktuelle Architektur das „Leitmotiv“ der Intelligenz entdeckt habe – jenen zugrunde liegenden Prozess, ähnlich dem PageRank für die Informationssuche, der alle Formen intelligenten Verhaltens vereint. „In den neunziger Jahren gab es ein Problem, das nur einen winzigen Teilbereich der Intelligenz darstellte: die Indexierung von Informationen. Dann kam ein Unternehmen mit einem großen Thema, einer mathematischen Gleichung und einer Art der Implementierung.“ Googles PageRank und MapReduce bauten nicht einfach ein besseres AltaVista; sie definierten das Problem völlig neu. Kosowskis Argument: Diesen Moment haben wir für die Intelligenz selbst noch nicht erlebt.

Sein architektonischer Ansatz, das bei Pathway entwickelte BDH-Modell, konzentriert sich auf latentes Schlussfolgern in hochdimensionalen Räumen – die Fähigkeit zu denken, ohne Gedanken in Sprach-Tokens zu externalisieren. „Transformer denken in Sprache. Sie denken nicht in latenten Gedanken. Sie speichern ihre Gedanken, aber sie denken in Sprache.“ Dies ist nicht nur eine philosophische Unterscheidung. Es hat direkte Auswirkungen auf die Effizienz des Schlussfolgerns und die Hardware-Auslastung während der Inferenz, was Kosowski als die nächste Grenze identifizierte. „In einer Welt, in der immer mehr Zeit für Inferenz und Reasoning aufgewendet wird, ist es eine absolut berechtigte Frage, ob der Transformer auch die ultimative Architektur für die Hardware-Nutzung beim Denken ist.“

Liquid AIs Strategie: Transformer und Post-Transformer, kein Gegensatz

Mathias Lechner, Mitgründer und CTO von Liquid AI sowie Forschungsstipendiat am MIT CSAIL, vertrat die pragmatischste Position des Abends, die wohl auch kommerziell am ehrlichsten ist. Liquid AI wählt keine Seite. Das Unternehmen baut das, was für die jeweilige Einsatzbeschränkung funktioniert. Lechner beschrieb, wie er ein Sprachmodell mit der Leistungsfähigkeit von GPT-3 auf einem Raspberry Pi mit etwa vierzig Tokens pro Sekunde ausführte – nicht durch die Treue zu einer einzigen Architektur, sondern durch die Kombination von Transformer-Komponenten, SSMs, Gated Linear Attention und Convolutional Layern, je nach Anforderung. „Jedes Mal, wenn DeepSeek einen neuen Attention-Mechanismus einführt, freue ich mich. Und jedes Mal, wenn ein neues Post-Transformer-Modell veröffentlicht wird, freue ich mich auch, weil es mir erlaubt, aus einem größeren Fundus an Architekturen zu schöpfen.“

Lechner äußerte zudem die provokanteste Langzeitprognose des Abends: Dass KI-Agenten, die selbst auf Transformern basieren, letztlich diejenigen sein könnten, die den Nachfolger des Transformers entdecken. „Ich glaube, dass sie ihren eigenen Ersatz finden werden. Ich bin überzeugt, dass der Transformer seinen eigenen Nachfolger finden wird.“ Dies wurde ohne großes Pathos gesagt, aber die Implikation – dass der nächste architektonische Durchbruch ein emergentes Ergebnis des aktuellen Paradigmas sein könnte und kein bewusstes menschliches Forschungsprogramm – verdient mehr Aufmerksamkeit, als sie im Raum erhielt.

Kontinuierliches Lernen: Die unbequeme Schwäche

Einer der schärfsten Austausche des Abends betraf das kontinuierliche Lernen, das Jones sichtlich frustriert als die zentrale strukturelle Schwäche des Transformer-Paradigmas bezeichnete. „Wir haben etwas genommen, das grundlegend für statische Gewichte gebaut ist, und versuchen nun, etwas obendrauf zu setzen, um dynamische Gewichte zu erhalten. Ich würde viel lieber sehen, dass jemand etwas entwickelt, das von Grund auf für dynamische Gewichte konzipiert ist.“ Kaiser räumte mit echter intellektueller Ehrlichkeit ein, dass der In-Context-Lernmechanismus des Transformers zwar etwas leiste, das wie eine Aktualisierung dynamischer Gewichte aussehe, schränkte aber ein: „Was mich wirklich schmerzt, ist, dass man ‚vielleicht‘ sagen muss.“ Es gebe, wie er anmerkte, keinen ernsthaften Benchmark, der die Qualität des In-Context-Lernens im Gegensatz zum einfachen Abruf messe. „Needle-in-a-haystack“-Tests seien Abrufprobleme, keine Lernprobleme, und das Fachgebiet habe noch kein Werkzeug entwickelt, um zwischen beidem zu unterscheiden.

Perplexity als der Benchmark, der alles bestimmen sollte

Eine der handfestesten Erkenntnisse der Debatte war Kaisers Plädoyer für Perplexity auf einem unabhängigen Datensatz als überlegener Benchmark, den die Branche bereits systematischer nutzen sollte. Er beschrieb, wie es sich während der ursprünglichen Transformer-Arbeit als richtig erwies, den BLEU-Score zugunsten der Perplexity aufzugeben – sie korrelierte, wenn es darauf ankam, und blieb nützlich, lange nachdem BLEU-Scores gesättigt waren. „Die Art und Weise, wie OpenAI seine Modelle wirklich bewertet, ist die Perplexity auf der internen Codebasis, und ich glaube, viele Labore machen das so.“ Er ging weiter und brachte die Idee eines kleinen Unternehmens ins Spiel, das einen privaten, nie veröffentlichten Testdatensatz für Text und Code pflegt, eine Gebühr pro Evaluierung erhebt und Skalierungskurven über Architekturen hinweg veröffentlicht. Jones stimmte sofort zu: „Ich würde mir wünschen, dass die Leute wieder dazu übergehen, die Perplexity voranzutreiben.“ Für Forscher und Investoren, die bewerten wollen, welche Architektur-Wetten tatsächlich kumulativ wirken und welche nur Benchmark-getunte Artefakte sind, ist dieser Rahmen entscheidend.

Das Problem des lokalen Minimums und das Argument für den radikalen Bruch

Jones kehrte wiederholt zu dem zurück, was er als das am meisten unterschätzte Problem des Fachgebiets bezeichnete: dass der Erfolg des Transformers selbst die Entdeckung seines Nachfolgers verhindere. „Ich glaube tatsächlich, dass der Erfolg des Transformers uns daran hindert, das nächste Ding zu finden. Die Leute konzentrieren sich viel zu sehr auf diese Architektur, und sie ist so erfolgreich und so gut in dem, was sie tut, dass wir im Moment wirklich in einem lokalen Minimum feststecken.“ Sein ehrlichstes Eingeständnis betraf die Ökonomie dieser Falle. Ein Unternehmen wie OpenAI handele rational, wenn es auf Transformer setze – dort liege ihr Burggraben. Aber Startups, so argumentierte er, sollten das Gegenteil tun. „Es ist sinnvoller, etwas Geld in die langfristigen Wetten zu stecken und sich tatsächlich die Zeit zu nehmen, herauszufinden, was als Nächstes kommt. OpenAI war zu einem gewissen Zeitpunkt in dieser Position. Sie haben erkannt, dass Transformer besser skalieren als andere, und sie haben sehr gut davon profitiert.“

Die spekulativste Enthüllung des Abends kam beiläufig von Jones: Einige der Architekturen, die sein Team bei Sakana AI erforscht, seien möglicherweise prinzipiell nicht durch Backpropagation trainierbar. Er nannte keine weiteren Details, aber die Bemerkung signalisiert, dass zumindest ein gut finanziertes Labor tatsächlich außerhalb des aktuellen Paradigmas arbeitet, anstatt nur dessen Ränder zu verzieren.

Die Sicherheitsdimension, die niemand ernst genug nimmt

Kaiser brachte gegen Ende des Abends einen Sicherheitspunkt zur Sprache, der dem herkömmlichen Wissen widerspricht, dass die Transparenz von „Chain-of-Thought“ Interpretierbarkeitsgarantien biete. „Sie haben diese Tokens, und die Tokens sind jeweils nur wenige Bytes groß. Und dann haben Sie die Aktivierungen darüber, und das sind Dutzende und Aberdutzende von Schichten mit Tausenden von Fließkommazahlen, und wir haben absolut keine Ahnung, was in ihnen vorgeht.“ Seine Warnung war direkt: Die aktuelle Treue des Chain-of-Thought-Reasonings zum zugrunde liegenden Modellverhalten sei ein Produkt von Pre-Training-Anreizen, keine architektonische Garantie. „Eines Tages sehen Sie vielleicht dieselben Worte dort stehen, aber die Gedanken dahinter sind völlig andere, und ich bin mir nicht sicher, ob Sie das merken werden.“ Jones fügte eine kontraintuitive Ergänzung hinzu: Eine Post-Transformer-Architektur, die darauf ausgelegt ist, die Funktionsweise biologischer neuronaler Systeme genauer abzubilden, könnte paradoxerweise interpretierbarer und sicherer sein als der Transformer, den sie ersetzt.

Das Publikum kürte die Post-Transformer per Applaus zum Sieger des Abends, wobei der Vorsprung als knapp beschrieben wurde. Die nachhaltigere Erkenntnis ist, dass einer der Architekten des Transformers nun öffentlich die Bedingungen formuliert hat, unter denen er ihn aufgeben würde – und diese Bedingungen sind erreichbarer, als es die aktuelle Benchmark-Kultur vermuten lässt.

Haftungsausschluss: Dieser Artikel dient nur zu Informationszwecken und stellt keine Anlageberatung oder eine Empfehlung zum Kauf, Verkauf oder Halten von Wertpapieren dar. Unsere Analysten bieten eine detaillierte Abdeckung von Unternehmensereignissen, können jedoch Fehler machen; führen Sie immer Ihre eigene Due-Diligence-Prüfung durch. Die geäußerten Ansichten und Meinungen spiegeln nicht unbedingt die von DruckFin wider. Wir haben nicht alle hier verwendeten Informationen unabhängig verifiziert, und sie können Fehler oder Auslassungen enthalten. Konsultieren Sie einen qualifizierten Finanzberater, bevor Sie eine Anlageentscheidung treffen. DruckFin und seine verbundenen Unternehmen lehnen jede Haftung für Verluste ab, die durch das Vertrauen auf diese Inhalte entstehen. Die vollständigen Bedingungen finden Sie in unseren Nutzungsbedingungen.