DruckFin

路徑之爭:Transformer 共同發明人 Lukasz Kaiser 坦言,若後 Transformer 架構能展現 10 倍效能提升,他將棄守

Pathway 於 2026 年 5 月 5 日在舊金山舉辦現場辯論,由 Transformer 發明者與後續架構先驅正面交鋒

在 Pathway 舉辦的這場架構現場辯論中,最引人注目的時刻並非挑戰者發動猛烈攻勢,而是身為衛冕者的 Transformer 共同發明人親口開出了「投降條件」。Lukasz Kaiser,身為 Transformer 的共同發明人,同時也是 GPT-4、GPT-5 以及 o1/o3 推理模型的幕後研發者,向現場觀眾表示,如果有一種「後 Transformer」(Post-Transformer)架構能展現出更優異的擴展曲線(scaling curve)——即便在現有硬體上的運算成本高出 50 倍——他也別無選擇,只能承認失敗。「如果你能證明一個模型雖然運算慢上 50 倍,但具備更好的成長斜率,那你就是贏家。我必須認輸。一旦你證明了這一點,硬體廠商自然會跟進。」這番表態,為當前追逐 AI 基礎建設浪潮的投資人開啟了一扇比預期更寬廣的大門。

10 倍門檻:硬體不再是無法突破的藉口

整場辯論中,「硬體彩券」(hardware lottery)論點——即 Transformer 之所以勝出,部分是因為 GPU 矩陣乘法運算恰好完美契合其架構——始終是核心議題。Llion Jones,作為 Transformer 的共同發明人,如今卻站在後 Transformer 陣營,同時也是 Sakana AI 的共同創辦人,他直言不諱地指出:「外界對 Transformer 的突破存在深刻誤解。」在他看來,那些不斷調整注意力層(attention layers)與殘差連接(residual connections)以尋求下一個突破的研究人員,其實是在浪費時間。真正的突破在於硬體平行化(hardware parallelism),而那種優化機會已不復存在。

Kaiser 則以一段極具分量的歷史註腳進行反擊。第一代 TPU 是為了服務 RNN 而非 Transformer 所設計的。當注意力模型首次在 TPU 上運行時,由於硬體不支援指數運算,softmax 必須卸載到 CPU 執行。「當時慢得要命,」Kaiser 回憶道。「它必須證明自己足夠優秀,硬體廠商才會改變方向;八年後的今天,它們已經能極快地執行這些模型。」他的觀點是,一個足夠卓越的架構自然會贏得硬體支援——但門檻並非 2 倍,而是 10 倍。他還提出了一個改變當前研究人員計算方式的實務觀察:AI 代理(AI agents)現在已經能編寫 CUDA。「許多在 GPU 上執行起來慢得痛苦的操作,現在都可以透過優質的 kernel 來克服,而且你甚至不需要親自編寫這些程式碼。」對於任何投入或資助後 Transformer 研究的人來說,這意味著 Transformer 周圍的實作護城河,其消融速度比基準測試數據所顯示的還要快。

BDH 架構與 PageRank 的類比

Pathway 首席科學長兼 Dragon Hatchling 架構發明人 Adrian Kosowski 提出了當晚最具概念野心的論點。他並非主張 Transformer 是錯誤的,而是認為無論是 Transformer 還是目前的任何架構,都尚未發現他所謂的智慧「主導動機」(leitmotif)——即一種如同資訊檢索領域中 PageRank 的底層程序,能將所有形式的智慧行為統一起來。「九十年代時,有一個問題只是智慧的一小部分,那就是資訊索引。後來出現了一家公司,帶來了一個宏大的主題、一個數學方程式,以及一種實作方式。」Google 的 PageRank 和 MapReduce 不僅僅是打造了一個更好的 AltaVista,而是徹底重塑了問題本身。Kosowski 認為,我們尚未在智慧領域迎來那樣的時刻。

他所提出的架構解答,即 Pathway 正在開發的 BDH 方法,核心在於高維空間中的潛在推理(latent reasoning)——即在不將思考外化為語言 Token 的情況下進行思考的能力。「Transformer 用語言思考。它們並非以潛在思維進行思考。它們記憶了思維的內容,但思考過程仍是語言。」這不僅僅是哲學上的區別,它對推理效率以及推理過程中的硬體利用率有直接影響,而 Kosowski 將此視為下一個前沿。「隨著我們進入一個將越來越多時間花費在推理上的世界,Transformer 是否仍是硬體利用率方面的終極架構,這是一個非常值得探討的問題。」

Liquid AI 的避險策略:Transformer 與後 Transformer 並存,而非對立

Liquid AI 共同創辦人兼 CTO、同時也是 MIT CSAIL 研究員的 Mathias Lechner,是台上最務實的聲音,他的觀點在商業上或許也最為誠實。Liquid AI 不選邊站,而是根據眼前的部署限制選擇最合適的方案。Lechner 描述了如何在 Raspberry Pi 上運行具備 GPT-3 等級能力的語言模型,達到每秒約 40 個 Token 的速度——這並非透過忠於單一架構,而是根據需求從 Transformer 組件、SSM、門控線性注意力(gated linear attention)和卷積層中進行靈活選取。「每當 DeepSeek 推出新的注意力機制,我都很高興。每當有新的後 Transformer 模型發表,我也同樣高興,因為這讓我可以從更廣泛的架構庫中進行選擇。」

Lechner 還拋出了一個當晚最具挑釁性的長期預測:由 Transformer 構建的 AI 代理,最終可能會成為發現 Transformer 替代方案的推手。「我相信它們會找到自己的替代者。我深信 Transformer 將會找到取代它自己的東西。」這句話說得平淡,但其含義——即下一個架構突破可能是當前範式的突現產物,而非人類刻意的研究計畫——值得比現場更多的關注。

持續學習:不便面對的弱點

當晚最激烈的交流之一關於「持續學習」(continual learning),Jones 以明顯的挫折感將其描述為 Transformer 範式的核心結構性弱點。「我們拿了一個本質上為靜態權重設計的東西,然後說:『現在我們該如何在上面加點什麼,讓它具備動態權重?』我更希望看到有人從一開始就設計出具備動態權重的架構。」Kaiser 在展現極高誠實度的時刻承認,Transformer 的上下文學習(in-context learning)機制確實呈現了類似動態權重更新的效果,但他補充了一個但書:「真正讓我感到痛苦的是,你必須說『也許』。」正如他所指出的,目前沒有嚴肅的基準測試能衡量上下文學習的品質,而非僅僅是簡單的檢索。「大海撈針」(Needle-in-a-haystack)測試是檢索問題,而非學習問題,而該領域尚未建立起區分兩者的工具。

困惑度(Perplexity):應成為主導一切的基準

辯論中最具實務價值的見解之一,是 Kaiser 主張將「保留測試集上的困惑度」(perplexity on a held-out dataset)作為業界應更系統化採用的優越基準。他描述了在 Transformer 原始研究期間,放棄 BLEU 分數轉而採用困惑度是如何成為正確決策的——它在需要時保持相關性,並且在 BLEU 分數飽和後依然有效。「OpenAI 衡量模型的方式確實是內部程式碼庫的困惑度,我想許多實驗室也是這麼做的。」他進一步提出構想,認為可以有一家小型公司維護一套從未公開的私人測試集(文本與程式碼),按評估次數收費,並發布跨架構的擴展曲線。Jones 當即表示贊同。「我希望看到人們回過頭來推動困惑度指標。」對於試圖評估哪些架構賭注真正具有複合效應、哪些只是針對基準測試進行優化的研究人員與投資人來說,這種框架至關重要。

局部最小值問題與激進變革的理由

Jones 反覆提到他認為該領域最被低估的問題:Transformer 的成功本身正在阻礙其繼任者的發現。「我認為 Transformer 的成功正在阻止我們找到下一個突破。人們過於集中精力在這個架構上,它太成功了,在擅長的事務上表現太好,以至於我們現在真的陷入了局部最小值(local minimum)。」他最坦率的承認是關於這種陷阱的經濟學。像 OpenAI 這樣的公司理性地選擇加碼 Transformer 是正確的——因為這是他們的護城河所在。但他主張,新創公司應該反其道而行。「將資金投入長期賭注,花時間尋找下一個突破,這才更有意義。OpenAI 在某個階段也處於那種位置。他們比其他人更早發現 Transformer 的擴展性更好,並藉此取得了巨大的成功。」

當晚最具推測性的披露來自 Jones 的隨口一提:他團隊在 Sakana AI 探索的部分架構,原則上甚至可能無法透過反向傳播(backpropagation)進行訓練。他未提供更多細節,但這番評論釋出了一個訊號:至少有一個資源充足的實驗室正在真正地跳脫當前範式,而非僅僅在邊緣進行裝飾。

沒人足夠重視的安全維度

Kaiser 在晚間結束前提出了一個安全觀點,這與關於「思維鏈」(chain-of-thought)透明度能提供可解釋性保證的傳統觀點相悖。「你有這些 Token,每個 Token 大約幾個位元組。然後你有它們之上的激活值(activations),那是數十層、數千個浮點數,而我們對於其中發生的事情一無所知。」他的警告非常直接:當前思維鏈對底層模型行為的忠實度,是預訓練激勵的產物,而非架構上的保證。「有一天你可能會看到同樣的文字被說出來,但內在的思想卻完全不同,我不確定你是否會察覺。」Jones 補充了一個反直覺的推論——一個設計上更貼近生物神經系統運作方式的後 Transformer 架構,反而可能比它所取代的 Transformer 更具可解釋性且更安全。

儘管現場觀眾透過掌聲計量器投票選出「後 Transformer」為勝者,但差距被形容為相當接近。更持久的啟示在於,Transformer 的發明者之一已經公開設定了他放棄該架構的條件——而這些條件比當前的基準測試文化所暗示的更容易達成。

免責聲明: 本文僅供參考,不構成投資建議或買賣、持有任何證券的推薦。 我們的分析師對企業事件提供詳細報導,但也可能出錯,請務必進行您自己的自行評估與研究。 文中所表達的觀點和意見不一定反映 DruckFin 的立場。 我們未獨立核實本文所使用的所有資訊,其中可能包含錯誤或遺漏。 在做出任何投資決定之前,請諮詢合格的財務顧問。 DruckFin 及其關係企業對因依賴此內容而產生的任何損失不承擔任何責任。 完整條款請見我們的使用條款