路徑之爭：Transformer 共同發明人 Lukasz Kaiser 坦言，若後 Transformer 架構能展現 10 倍效能提升，他將棄守

Pathway 於 2026 年 5 月 5 日在舊金山舉辦現場辯論，由 Transformer 發明者與後續架構先驅正面交鋒

在 Pathway 舉辦的這場架構現場辯論中，最引人注目的時刻並非挑戰者發動猛烈攻勢，而是身為衛冕者的 Transformer 共同發明人親口開出了「投降條件」。Lukasz Kaiser，身為 Transformer 的共同發明人，同時也是 GPT-4、GPT-5 以及 o1/o3 推理模型的幕後研發者，向現場觀眾表示，如果有一種「後 Transformer」（Post-Transformer）架構能展現出更優異的擴展曲線（scaling curve）——即便在現有硬體上的運算成本高出 50 倍——他也別無選擇，只能承認失敗。「如果你能證明一個模型雖然運算慢上 50 倍，但具備更好的成長斜率，那你就是贏家。我必須認輸。一旦你證明了這一點，硬體廠商自然會跟進。」這番表態，為當前追逐 AI 基礎建設浪潮的投資人開啟了一扇比預期更寬廣的大門。

10 倍門檻：硬體不再是無法突破的藉口

整場辯論中，「硬體彩券」（hardware lottery）論點——即 Transformer 之所以勝出，部分是因為 GPU 矩陣乘法運算恰好完美契合其架構——始終是核心議題。Llion Jones，作為 Transformer 的共同發明人，如今卻站在後 Transformer 陣營，同時也是 Sakana AI 的共同創辦人，他直言不諱地指出：「外界對 Transformer 的突破存在深刻誤解。」在他看來，那些不斷調整注意力層（attention layers）與殘差連接（residual connections）以尋求下一個突破的研究人員，其實是在浪費時間。真正的突破在於硬體平行化（hardware parallelism），而那種優化機會已不復存在。

Kaiser 則以一段極具分量的歷史註腳進行反擊。第一代 TPU 是為了服務 RNN 而非 Transformer 所設計的。當注意力模型首次在 TPU 上運行時，由於硬體不支援指數運算，softmax 必須卸載到 CPU 執行。「當時慢得要命，」Kaiser 回憶道。「它必須證明自己足夠優秀，硬體廠商才會改變方向；八年後的今天，它們已經能極快地執行這些模型。」他的觀點是，一個足夠卓越的架構自然會贏得硬體支援——但門檻並非 2 倍，而是 10 倍。他還提出了一個改變當前研究人員計算方式的實務觀察：AI 代理（AI agents）現在已經能編寫 CUDA。「許多在 GPU 上執行起來慢得痛苦的操作，現在都可以透過優質的 kernel 來克服，而且你甚至不需要親自編寫這些程式碼。」對於任何投入或資助後 Transformer 研究的人來說，這意味著 Transformer 周圍的實作護城河，其消融速度比基準測試數據所顯示的還要快。

BDH 架構與 PageRank 的類比

Pathway 首席科學長兼 Dragon Hatchling 架構發明人 Adrian Kosowski 提出了當晚最具概念野心的論點。他並非主張 Transformer 是錯誤的，而是認為無論是 Transformer 還是目前的任何架構，都尚未發現他所謂的智慧「主導動機」（leitmotif）——即一種如同資訊檢索領域中 PageRank 的底層程序，能將所有形式的智慧行為統一起來。「九十年代時，有一個問題只是智慧的一小部分，那就是資訊索引。後來出現了一家公司，帶來了一個宏大的主題、一個數學方程式，以及一種實作方式。」Google 的 PageRank 和 MapReduce 不僅僅是打造了一個更好的 AltaVista，而是徹底重塑了問題本身。Kosowski 認為，我們尚未在智慧領域迎來那樣的時刻。

他所提出的架構解答，即 Pathway 正在開發的 BDH 方法，核心在於高維空間中的潛在推理（latent reasoning）——即在不將思考外化為語言 Token 的情況下進行思考的能力。「Transformer 用語言思考。它們並非以潛在思維進行思考。它們記憶了思維的內容，但思考過程仍是語言。」這不僅僅是哲學上的區別，它對推理效率以及推理過程中的硬體利用率有直接影響，而 Kosowski 將此視為下一個前沿。「隨著我們進入一個將越來越多時間花費在推理上的世界，Transformer 是否仍是硬體利用率方面的終極架構，這是一個非常值得探討的問題。」

Liquid AI 的避險策略：Transformer 與後 Transformer 並存，而非對立

Liquid AI 共同創辦人兼 CTO、同時也是 MIT CSAIL 研究員的 Mathias Lechner，是台上最務實的聲音，他的觀點在商業上或許也最為誠實。Liquid AI 不選邊站，而是根據眼前的部署限制選擇最合適的方案。Lechner 描述了如何在 Raspberry Pi 上運行具備 GPT-3 等級能力的語言模型，達到每秒約 40 個 Token 的速度——這並非透過忠於單一架構，而是根據需求從 Transformer 組件、SSM、門控線性注意力（gated linear attention）和卷積層中進行靈活選取。「每當 DeepSeek 推出新的注意力機制，我都很高興。每當有新的後 Transformer 模型發表，我也同樣高興，因為這讓我可以從更廣泛的架構庫中進行選擇。」

Lechner 還拋出了一個當晚最具挑釁性的長期預測：由 Transformer 構建的 AI 代理，最終可能會成為發現 Transformer 替代方案的推手。「我相信它們會找到自己的替代者。我深信 Transformer 將會找到取代它自己的東西。」這句話說得平淡，但其含義——即下一個架構突破可能是當前範式的突現產物，而非人類刻意的研究計畫——值得比現場更多的關注。

持續學習：不便面對的弱點

當晚最激烈的交流之一關於「持續學習」（continual learning），Jones 以明顯的挫折感將其描述為 Transformer 範式的核心結構性弱點。「我們拿了一個本質上為靜態權重設計的東西，然後說：『現在我們該如何在上面加點什麼，讓它具備動態權重？』我更希望看到有人從一開始就設計出具備動態權重的架構。」Kaiser 在展現極高誠實度的時刻承認，Transformer 的上下文學習（in-context learning）機制確實呈現了類似動態權重更新的效果，但他補充了一個但書：「真正讓我感到痛苦的是，你必須說『也許』。」正如他所指出的，目前沒有嚴肅的基準測試能衡量上下文學習的品質，而非僅僅是簡單的檢索。「大海撈針」（Needle-in-a-haystack）測試是檢索問題，而非學習問題，而該領域尚未建立起區分兩者的工具。

困惑度（Perplexity）：應成為主導一切的基準

辯論中最具實務價值的見解之一，是 Kaiser 主張將「保留測試集上的困惑度」（perplexity on a held-out dataset）作為業界應更系統化採用的優越基準。他描述了在 Transformer 原始研究期間，放棄 BLEU 分數轉而採用困惑度是如何成為正確決策的——它在需要時保持相關性，並且在 BLEU 分數飽和後依然有效。「OpenAI 衡量模型的方式確實是內部程式碼庫的困惑度，我想許多實驗室也是這麼做的。」他進一步提出構想，認為可以有一家小型公司維護一套從未公開的私人測試集（文本與程式碼），按評估次數收費，並發布跨架構的擴展曲線。Jones 當即表示贊同。「我希望看到人們回過頭來推動困惑度指標。」對於試圖評估哪些架構賭注真正具有複合效應、哪些只是針對基準測試進行優化的研究人員與投資人來說，這種框架至關重要。

局部最小值問題與激進變革的理由

Jones 反覆提到他認為該領域最被低估的問題：Transformer 的成功本身正在阻礙其繼任者的發現。「我認為 Transformer 的成功正在阻止我們找到下一個突破。人們過於集中精力在這個架構上，它太成功了，在擅長的事務上表現太好，以至於我們現在真的陷入了局部最小值（local minimum）。」他最坦率的承認是關於這種陷阱的經濟學。像 OpenAI 這樣的公司理性地選擇加碼 Transformer 是正確的——因為這是他們的護城河所在。但他主張，新創公司應該反其道而行。「將資金投入長期賭注，花時間尋找下一個突破，這才更有意義。OpenAI 在某個階段也處於那種位置。他們比其他人更早發現 Transformer 的擴展性更好，並藉此取得了巨大的成功。」

當晚最具推測性的披露來自 Jones 的隨口一提：他團隊在 Sakana AI 探索的部分架構，原則上甚至可能無法透過反向傳播（backpropagation）進行訓練。他未提供更多細節，但這番評論釋出了一個訊號：至少有一個資源充足的實驗室正在真正地跳脫當前範式，而非僅僅在邊緣進行裝飾。

沒人足夠重視的安全維度

Kaiser 在晚間結束前提出了一個安全觀點，這與關於「思維鏈」（chain-of-thought）透明度能提供可解釋性保證的傳統觀點相悖。「你有這些 Token，每個 Token 大約幾個位元組。然後你有它們之上的激活值（activations），那是數十層、數千個浮點數，而我們對於其中發生的事情一無所知。」他的警告非常直接：當前思維鏈對底層模型行為的忠實度，是預訓練激勵的產物，而非架構上的保證。「有一天你可能會看到同樣的文字被說出來，但內在的思想卻完全不同，我不確定你是否會察覺。」Jones 補充了一個反直覺的推論——一個設計上更貼近生物神經系統運作方式的後 Transformer 架構，反而可能比它所取代的 Transformer 更具可解釋性且更安全。

儘管現場觀眾透過掌聲計量器投票選出「後 Transformer」為勝者，但差距被形容為相當接近。更持久的啟示在於，Transformer 的發明者之一已經公開設定了他放棄該架構的條件——而這些條件比當前的基準測試文化所暗示的更容易達成。

閱讀下一篇

Sivers Semiconductors：潛在訂單激增至 8 億美元，惟受匯率與國防項目延宕影響，短期營收仍面臨挑戰

2026-05-31

Tempus AI：估值矛盾下的成長敘事——基礎模型表現亮眼與腫瘤專用檢測獲 FDA 核准

2026-05-31

Phreesia 深度剖析

2026-05-31

WhiteHawk Minerals 深度解析

2026-05-30

Sunshine Silver Mining & Refining 深度解析

2026-05-30

免責聲明： 本文僅供參考，不構成投資建議或買賣、持有任何證券的推薦。我們的分析師對企業事件提供詳細報導，但也可能出錯，請務必進行您自己的自行評估與研究。文中所表達的觀點和意見不一定反映 DruckFin 的立場。我們未獨立核實本文所使用的所有資訊，其中可能包含錯誤或遺漏。在做出任何投資決定之前，請諮詢合格的財務顧問。 DruckFin 及其關係企業對因依賴此內容而產生的任何損失不承擔任何責任。完整條款請見我們的使用條款。