DruckFin

SemiAnalysis:強化學習訓練效率的關鍵在於吞吐量匹配,而非單純堆疊算力

開源強化學習框架實驗揭示模型能力擴展的關鍵瓶頸 - 2026年6月16日

強化學習(RL)後訓練已成為打造頂尖 AI 模型的「秘密武器」,但擴展 RL 的成本極為高昂。SemiAnalysis 針對開源 RL 框架進行了廣泛實驗,旨在探討驅動 RL 訓練系統效率的真正核心。令人驚訝的結論是:重點不在於投入更多算力,而在於精確匹配兩個關鍵組件之間的吞吐量——即負責產生訓練數據的「生成器(Generator)」與負責從中學習的「訓練器(Trainer)」。

研究團隊使用 Qwen3-235B 和 GLM-5 等模型,在 Prime RL、slime 和 verl 等不同 RL 框架上進行了實驗。其發現從根本上挑戰了傳統對於 RL 基礎設施設計的認知。

無人提及的隊列健康問題

SemiAnalysis 以一個優雅的思維模型來定義 RL 訓練效率:這是一個隊列,生成器在其中產生推論(rollouts),而訓練器則負責消耗這些推論。當生成器速度較慢時,訓練器會因缺乏數據而閒置;當生成器速度過快時,樣本會在隊列中過期,導致團隊所謂的「策略陳舊(policy staleness)」——即模型使用由舊版自身產生的輸出進行訓練,進而削弱學習品質。

在針對 Qwen3-235B-Thinking 進行的首個大型實驗中,團隊使用 64 張 H200 GPU 進行訓練,並配置 192 張 GPU 進行生成,結果系統嚴重受限於生成速度。訓練器以每秒 2.75 個樣本的速度消耗數據,但卻有 30% 的時間處於等待狀態,模型 FLOPs 利用率僅為 10.5%。儘管生成器使用的算力是訓練器的 3 倍,但每秒僅能提供 1.95 個樣本。問題根源在於:模型產生了極長的回答與詳盡的推理過程,而響應長度的變異數導致了嚴重的長尾延遲問題。

為了應對此情況,團隊不得不透過「過度採樣(oversampling)」技術丟棄 60% 已分發的推論——即啟動比需求更多的並發推論,並捨棄未完成的部分。這種浪費的做法凸顯了推論效率在 RL 訓練中的關鍵性,而這一點在當前關於 RL 基礎設施的討論中似乎被嚴重低估。

模型行為漂移帶來的移動靶標

在使用 128 張 H200 GPU 對 GLM-5 進行的第二項實驗中,揭示了 RL 系統設計中另一個極具挑戰性的維度:模型在訓練過程中的行為會發生變化,進而改變系統限制。在訓練過程中,每輪平均響應長度與工具調用次數增加了兩倍,從 20 次提升至 51 次。這不僅拉長了序列長度,還將工作負載轉向「預填充(prefill)」密集型配置,從根本上改變了訓練中期的最佳基礎設施配置。

更糟的是,課程設計對模型而言過於簡單——55% 的問題解決率達到 100%,即該組中的每個推論均通過測試。當每個推論獲得相同的獎勵時,優勢計算(advantage calculation)結果為零,該組無法提供任何訓練訊號。正如 SemiAnalysis 所解釋,當「解決率接近 100% 或 0%」時,任務要麼太簡單、要麼太難。儘管投入了算力,平均獎勵卻停滯不前。

這些綜合效應導致系統嚴重受限於生成端,訓練器有 74% 的時間在等待,其消耗速率是生成器實際產出速率的 5 倍。由於過濾掉無法提供學習訊號的樣本,有效的生成產出率大幅崩潰。

沙盒擴展的瓶頸

在第三項針對 GB300 硬體的實驗中,團隊將並發推論數從 96 提升至 960,隨即觸及了一個鮮少被討論的基礎設施硬牆:沙盒(sandbox)擴展。每個推論至少需要一個容器化沙盒來執行代碼並提供獎勵。在 960 個並發推論下,團隊遇到了「沙盒初始化死鎖錯誤(sandbox initialization dead errors)」以及「1 小時的沙盒啟動長尾延遲」。他們被迫將並發數調回 96,但隨之而來的是推論效率低下的問題。

這揭示了編碼助手 RL 訓練中的一項基本限制。SemiAnalysis 估計,目前六大主要參與者在該領域的年度經常性收入(ARR)已超過 300 億美元,並有望在年底突破 1,000 億美元。沙盒基礎設施必須隨著並發推論數線性擴展,而像 Modal 這類沙盒服務商面臨著啟動延遲、需求波動以及模型異常行為(如創建百萬個檔案耗盡記憶體)等獨特挑戰。

策略陳舊:非同步訓練的隱性成本

經典的策略梯度演算法假設一組中的所有推論均來自相同的模型權重。這迫使系統必須採用同步執行,即生成器在完成當前批次前無法更新權重,導致巨大效率損失。業界已轉向非同步技術,特別是 PipelineRL,它允許在推論仍在生成時同步進行權重更新。

然而,這帶來了「策略陳舊」問題——樣本由新舊策略混合產生。SemiAnalysis 識別出三種陳舊層級:軌跡層級(開始推論的策略版本與當前版本之間的差距)、Token 層級(權重更新發生在推論過程中,導致不同 Token 來自不同版本)以及環境狀態層級(對於狀態環境尤為重要)。

slime 框架實作了「部分推論(partial rollout)」功能,將滯後的推論保存至緩衝區並在後續批次中重啟,以減輕長尾延遲。但這引入了極其棘手的環境狀態層級陳舊問題。正如團隊所言:「沙盒喚醒時並非處於乾淨的儲存庫狀態。沙盒內保留了舊策略在先前輪次中產生的部分編輯、已創建檔案及工作目錄狀態。新策略現在必須在一個並非由它產生、且未必會導致該狀況的環境中繼續執行。」這會損害優勢歸因過程中的訓練訊號。

經濟效益的殘酷現實

SemiAnalysis 進行了總體擁有成本(TCO)分析,將其實驗結果與 Thinking Machines Lab 的管理型 RL 訓練平台 Tinker 進行對比。對於 H200 基礎設施,他們計算出每 GPU 每小時的總擁有成本為 1.59 美元,其中資本支出佔 72.5%。伺服器成本仍是主導因素,每台伺服器成本為 25.8 萬美元,佔每台伺服器 36.1 萬美元總前期資本支出的 71%。

在基於 slime 的 Qwen3-235B 實驗中,其成本為每百萬 Token 16.23 美元,是 Tinker 公開目標價 4.86 美元的 4.86 倍。而在 Prime RL 上,差距縮小至 2.01 倍,為每百萬 Token 6.90 美元(對比 Tinker 的 3.43 美元)。slime 與 Prime RL 之間巨大的成本差異,凸顯了推論效率對總成本的決定性影響。

SemiAnalysis 推測,Tinker 之所以能取得成本優勢,主要歸功於「多租戶(multi-tenancy)」架構。Tinker 提供了一種低秩適應(LoRA)訓練 API,允許多個用戶在共享大部分權重的同時訓練模型。「在訓練器端,Tinker 可透過跨用戶批次處理訓練請求來大幅提升效率。在生成端,多租戶架構透過在某個運行因滯後而停滯時,利用其他租戶的推論來填補閒置插槽,從而減輕了滯後效應。」

團隊預計 Thinking Machines Lab 也應用了諸如「預填充-解碼解耦(prefill-decode disaggregation)」等推論優化技術,且可能正在運行 Blackwell GPU,根據其 InferenceX 分析,這比 Hopper 架構能帶來顯著的推論提升。多租戶優勢與基礎設施及硬體改進相結合,造就了巨大的成本差距。

Anthropic 對 RL 擴展的押注

該報告提供了理解此議題的重要背景。Anthropic 執行長 Dario Amodei 曾描述 RL 展現出「與預訓練曾經歷過的同樣擴展規律,即性能隨訓練時間長度呈對數線性增長」。然而,這種擴展成本極高,使得 RL 系統效率成為決定 RL 投入程度、進而決定模型能力能推進多遠的關鍵。

具體而言,Claude Opus 4.8 在 SWE-bench Pro 上得分 69.2%,在 Terminal-Bench 2.1 上得分 74.6%,而 RL 訓練被描述為「驅動分數提升的主要因素」。這些代理型編碼能力並非單純來自預訓練,而是需要透過強化學習進行廣泛且昂貴的後訓練。

開源社群已取得顯著進展。SemiAnalysis 追溯了從 DeepSeek R1 發布後早期努力的 OpenRLHF,到 slime 和 verl 等熱門框架的發展歷程。許多 OpenRLHF 的維護者後來開發了這些框架,在 RL 訓練領域形成了活躍的華人社群,團隊認為這「對近期中國模型的進步做出了積極貢獻」。這些框架也讓學術研究人員能夠開發新演算法與技術,使 RL 研究進入學術界觸手可及的範圍。

框架用戶體驗比預期更重要

團隊對所測試的框架給出了坦率的評估。Prime RL 因其用戶工效學(ergonomics)受到讚譽——大多數指令透過 uv 執行,配置在 toml 檔案中,並具備 AI 代理技能檔案以實現更流暢的整合。其 RL 環境中心以及對「預填充-解碼解耦」的支援是其顯著優勢。但對 uv 的高度依賴造成了摩擦,團隊花了大量時間「編譯並重新安裝 flash attention 3,因為我們搞不懂為什麼 uv 會把它卸載」。

Prime Sandbox 目前仍處於測試階段,在執行後期產生了許多失敗的運行。「錯誤包括佔用沙盒配額的懸空沙盒、資源不足錯誤及信用額度問題,其中許多在啟動運行前本可檢測出來。」

Slime 因其「簡潔且最小化的抽象」受到好評,特別是其使自定義變得直觀的 Hook 抽象。開發團隊因回應迅速而獲得高分。主要批評在於:其對共置模式(co-located mode)的專注導致非同步模式的文檔稀缺,迫使團隊「主要透過試錯法」來摸索機制。

Modal 的沙盒 API 在文檔品質與小規模服務的穩健性方面受到讚譽。但在高並發下出現了挑戰,包括死鎖初始化錯誤與長尾啟動延遲。經查證,這屬於帳戶資源限制而非平台硬性限制——Modal 提高了限制後,團隊驗證了高並發下的穩定性。儘管如此,這段經歷凸顯了對更好沙盒可觀察性工具及擴展文檔的需求。

開源工具在處理粗糙邊緣時的坦率,與典型的廠商行銷形成鮮明對比,但這對於那些在投入 RL 訓練基礎設施資金前,需要了解真實實作挑戰的機構受眾而言,極具參考價值。

免責聲明: 本文僅供參考,不構成投資建議或買賣、持有任何證券的推薦。 我們的分析師對企業事件提供詳細報導,但也可能出錯,請務必進行您自己的自行評估與研究。 文中所表達的觀點和意見不一定反映 DruckFin 的立場。 我們未獨立核實本文所使用的所有資訊,其中可能包含錯誤或遺漏。 在做出任何投資決定之前,請諮詢合格的財務顧問。 DruckFin 及其關係企業對因依賴此內容而產生的任何損失不承擔任何責任。 完整條款請見我們的使用條款