SemiAnalysis:Intel EMIB-T 在先進封裝競賽中縮小與台積電差距,客製化 HBM 重塑 AI 加速器經濟效益
ECTC 2026 會議,2026 年 7 月 2 日
先進封裝領域的軍備競賽在今年的電子元件與技術會議(ECTC)上出現關鍵轉折。Intel 首度公開了 EMIB-T 路線圖的最完整藍圖,並驗證了其在凸塊間距(bump pitch)上的性能,直接挑戰台積電(TSMC)CoWoS 平台的市場主導地位。與此同時,Marvell 針對客製化 HBM 的技術深度解析顯示,加速器設計人員可藉此回收目前被記憶體介面佔用、高達 60% 的晶片面積。隨著 NVIDIA 準備在其 Feynman 架構中部署該技術,此轉變將對 GPU 的經濟效益產生深遠影響。
Intel EMIB-T 路線圖鎖定 Google TPU v9 訂單
Intel 在 ECTC 的表現極為強勢,共發表 12 篇論文,遠超台積電的 3 篇,且技術含量與數量相符。該公司展示了 EMIB-T 在兩倍光罩尺寸(reticle-sized)矽基板封裝上,以 36 微米(micron)凸塊間距運作的成果,相較於 Granite Rapids 採用的 45 微米間距,凸塊密度提升了 65%。更重要的是,Intel 目前正將驗證範圍擴大至 4.5 倍光罩尺寸的封裝,目標於 2026 年底前完成認證。
間距路線圖仍在持續推進。Intel 展示了一款測試載具,透過單個 3 毫米乘 18 毫米的 EMIB-T 橋接器,連接兩顆單光罩尺寸晶片,運作間距達到 25 微米。然而,Intel 也坦言,在 25 微米以下,銲料體積限制將變得嚴苛,瓶頸將從橋接器佈線密度轉向凸塊形成、放置精度及組裝良率。
最引人注目的是 Intel 的四分之一面板(quarter-panel)展示:這是一款 240 毫米乘 240 毫米的測試載具,面積相當於約 67 個光罩。儘管展出的樣品在該尺寸下出現嚴重翹曲,但傳遞的訊息明確。Intel 正評估先進微影技術,以維持四分之一面板甚至全面板尺寸下的疊對(overlay)容差,儘管基板處理與面板級圖案化仍是首要限制因素。
EMIB-T 架構本身已大幅演進,超越了目前產品所使用的嵌入式橋接器。Intel 的剖面圖顯示其具備 10 層金屬層,包含 4 層佈線層,並在 M1 與 M2 層之間整合了金屬-絕緣體-金屬(MIM)電容器。賦予 EMIB-T 其名的矽穿孔(through-silicon vias)技術,實現了穿過橋接器的垂直供電,相較於傳統 EMIB 必須透過封裝與晶片側佈線進行橫向供電,直流電壓降(DC voltage drop)降低了 68% 至 80%。
Intel 揭露其橋接器內建 MIM 電容器的電容密度為每平方毫米 500 奈法(nanofarads),與 Intel 18A 製程技術相當。該公司聲稱,相較於無橋接器電容器的 EMIB-T 封裝,這些電容器將電源傳輸網路(PDN)的交流阻抗改善了超過 82%,直接解決了 HBM4E 的供電挑戰。
針對 HBM4E,Intel 模擬了 12 至 16 Gbps 的通道性能。在 12 Gbps 時,該公司顯示在無接收器等化(receiver equalization)的情況下,眼圖寬度(eye width)約為單位間隔(unit interval)的 67%,若使用單抽頭判決回授等化器(one-tap DFE),則提升至 72.5%。在所有測試速度下,透過適度降低焊墊電容,UI 眼圖寬度均保持在 60% 以上。
儘管有這些進展,Intel 在多個層面上仍落後於台積電。台積電已部署深溝槽電容(deep-trench capacitor)整合,並在整合式電壓調節器(IVR)與主動式局部矽互連(active local silicon interconnect)方面進度超前。Intel 雖已揭露基板核心嵌入式深溝槽電容概念及密度超過每平方毫米 2,500 奈法的電容器,但尚未應用於出貨的 EMIB 產品中。EMIB-T 顯著縮小了差距,但 Intel 仍在追趕一個已在量產中執行多年的生態系統。這些揭露強烈暗示 EMIB-T 已鎖定 Google 的 TPU v9,這是 Intel 重返大型 AI 加速器製造領域最可靠的路徑。
Marvell 客製化 HBM 解決「岸線」難題
Marvell 在 ECTC 的簡報終於提供了客製化 HBM 背後的封裝細節,這是該公司在 2024 年產業分析師日宣布後,首次揭開神秘面紗。其經濟邏輯簡單且殘酷:JEDEC 標準的 HBM 強迫每個加速器必須實作標準 PHY,並佈線極寬的並列介面與標準化焊墊配置。隨著封裝尺寸增大與 HBM 速度提升,此固定邊界使得優化岸線(shoreline)、佈線密度、供電與訊號完整性變得愈發困難。
客製化 HBM 保留了 DRAM 核心晶片不變,但將基底晶片(base die)替換為採用先進邏輯製程製造的客製化版本。該客製化基底晶片整合了 HBM 控制器、管理與監控功能、客製化邏輯以及擴充介面。Marvell 聲稱此方法將主機 ASIC 用於 HBM PHY 及相關邏輯的佔用面積減少了約 60%,直接釋放空間以容納更多運算單元、快取或 I/O。
佈線改善同樣顯著。Marvell 的範例使用 1,024 個通道,速率達 32 Gbps,總頻寬為 4.1 TB/s,相當於 16 Gbps 下 2,048 位元的 JEDEC HBM4E 介面。客製化介面將中介層(interposer)通道長度從 6.5 毫米縮短至 1.5 毫米,使 Marvell 在維持相同 9 層佈線與 2 微米線寬/線距的情況下,大幅提升頻寬。
Marvell 的實作採用有機重佈線層(RDL)中介層而非矽中介層,從而降低封裝成本。有機 RDL 的線寬與線距限制較 CoWoS-S 的矽中介層或 CoWoS-L 與 EMIB-T 的矽橋接器更為粗糙,迫使 Marvell 必須在不同區域依賴客製化的遮蔽與佈線圖案,以在控制串擾(crosstalk)的同時最大化頻寬密度。
此策略影響不僅限於單一產品。在 GTC 大會上,NVIDIA 宣布 Feynman 架構將採用客製化 HBM,其理由與 Marvell 一致:更高的頻寬、更低的功耗,以及顯著減少 HBM 介面所佔用的加速器晶片面積。SemiAnalysis 估計,Rubin GPU 約有 16% 的晶片面積用於 HBM 相關邏輯與 PHY。客製化 HBM 讓 NVIDIA 得以將大部分負擔卸載至 HBM 基底晶片,從而回收矽面積用於創造營收的運算任務。
客製化 HBM 還能實現標準連結以外的擴充介面。基底晶片可作為次級記憶體控制器,並扇出至額外的記憶體(無論是更高容量、低頻寬的 LPDDR,甚至是第二層 HBM),而非強迫所有記憶體流量通過有限的加速器晶片岸線。此架構與 AMD 即將推出的 MI450 及未來的 MI500 GPU 直接相關,後者將支援 LPDDR 以增加記憶體容量。
HBM4E 中介層複雜度倍增
三星(Samsung)關於 HBM4E 中介層的簡報量化了業界面臨的封裝挑戰。HBM4E 將數據傳輸率推升至 12 Gbps 以上,同時 I/O 接腳數翻倍,導致佈線複雜度激增,HBM4E 所需的中介層層數可能是 HBM3E 的兩倍、HBM2 的五倍。由於 I/O 數量增加與數據傳輸率提升,功耗預計較 HBM3E 增加 86%,較 HBM2 增加 5.6 倍。
三星提出了一種八層矽中介層,聲稱較預估需求減少了 20% 的層數。該中介層採用重複的「兩訊號、一接地」交錯排列以遮蔽高速訊號,其中 75% 的層數用於訊號佈線。設計中整合了超高密度電容器(類似 Intel EMIB-T 的 MIM 電容器或台積電 CoWoS 的深溝槽電容器),但這些電容器僅能放置在 M1 層,而該層同時也是訊號佈線的關鍵層。
若佈線不平衡,電容器會被推向介面的一側,導致邏輯側與 HBM 側之間的電源傳輸網路行為不一致。三星的佈局將佈線重新分配至 M1 及其他層,使電容器能更均勻地分佈在整個介面上,進而降低 PDN 阻抗與電壓雜訊,同時維持佈線密度的可控性。
三星也探討了 HBM 的散熱問題,特別是混合鍵合(hybrid bonding)技術。對於 16 層堆疊的 HBM,熱阻仍在可接受範圍內,但未來邁向 20 層與 24 層堆疊時需要新方法。三星比較了在類似 NVIDIA Blackwell 的 2.5D GPU 封裝(含兩顆 GPU 晶片與八個 HBM 堆疊)上,熱壓合(TCB)與混合銅鍵合的差異。結果顯示,採用混合銅鍵合後,內部 HBM 熱阻在氣冷下降低了 12.2%,液冷下降低了 12.9%。整體 HBM 熱阻在氣冷下降低了 3.5%,液冷下降低了 7.7%。
由於混合銅鍵合僅解決了部分散熱網路,散熱效益並不均勻。三星將路徑分為內部熱阻、系統級熱阻與 GPU 至 HBM 的串擾。內部熱阻與串擾分別下降了約 12.5% 與 9.8%,但包含熱介面材料與冷卻系統在內的系統級熱阻則增加了約 2.3%。
隨著更多功耗轉移至 HBM 基底晶片(例如在記憶體密集型工作負載,或記憶體控制器與更多邏輯移至基底晶片的客製化 HBM 中),GPU 至 HBM 的熱串擾在總熱阻中的佔比會降低,從基底晶片功耗基準時的 13% 降至功耗為三倍時的 5%。三星估計,改用混合銅鍵合可使進水溫度在封裝功耗不變下提升 1 至 2 攝氏度,或在溫度不變下使封裝功耗提升約 4%,同時冷卻功耗下降約 7%。
微流體冷卻實現 5kW 封裝
台積電在 CoWoS-R 平台上展示了針對類 GPU 大型測試載具的晶片直冷技術,該載具採用 3.3 倍光罩尺寸的中介層,包含 4 顆 SoC 晶片與 8 個 HBM 堆疊。該公司比較了三種方案:傳統加蓋冷板封裝、無蓋冷板封裝,以及其將微柱(micropillar)直接形成於 SoC 晶片背面的直冷設計。
在每分鐘 1 至 2 公升的傳統冷卻條件下,加蓋封裝可散熱 1.9 至 2.3 kW,無蓋封裝可散熱 2.5 至 3.0 kW(使用相對較暖的 40 攝氏度去離子水)。由於熱介面材料成為瓶頸,兩種方案在流量超過每分鐘 4 公升後皆趨於飽和。微柱測試載具在流量為每分鐘 2 公升時與無蓋冷板結果相當,並在更高流量下表現更佳,在每分鐘 4 公升時散熱 4 kW,每分鐘 8 公升時達 5.3 kW。在整個測試載具上,台積電回報了超過 5 kW 的均勻散熱表現。
微軟(Microsoft)採取了不同路徑,使用蝕刻在 GPU 矽基板中的直通微通道(microchannels)而非微柱。更重要的是,微軟是在實際的 NVIDIA GH200 GPU 上進行測試,而非熱測試載具,從而更準確地捕捉實際的熱分佈與熱點。微軟在 GPU 上測試了多種工作負載,包括 HPCG 與 HPL,每種負載皆具備不同的運算與記憶體壓力特性。
在這些工作負載下,微軟回報在每分鐘 1 公升的流量下,GPU 的結點至進口熱阻降低了 51% 至 60%。HBM 的改善幅度較小,僅 27% 至 37%,因為它仍是透過冷板與熱介面材料進行冷卻。整體而言,該封裝實現了 50% 的熱阻降低。
微軟亦提供了初步的可靠性數據,這對於需要高可靠性與低停機時間的資料中心部署至關重要。在六個月內,微軟在約 4,370 次觀測中僅記錄到 9 次潛在的堵塞事件。該比率隨時間下降,顯示安裝初期不穩定,隨後進入更穩定的運作期。即使在六個月後,微通道內亦無可測量的矽侵蝕。在節點層級,GH200 成功完成了三週的重複基準測試,隨後進行了一週的穩定封裝功耗連續運作。微軟目前仍在測試叢集層級的平均故障間隔時間(MTBF)與可用性。
Marvell 與 Lightmatter 推動光學互連
Marvell 關於其光學多晶片互連橋接器(OMIB)與光子結構(Photonic Fabric)的簡報(兩者皆透過今年稍早收購 Celestial AI 獲得),揭示了一種比全光子中介層更實際的短期光子整合方案。Marvell 不採用具備光罩拼接(reticle stitching)良率挑戰的多光罩光子中介層,而是僅在需要的地方將光子積體電路(PIC)嵌入有機 RDL 中介層,其他區域則使用電橋。
由於 PIC 嵌入在 RDL 中,其光柵耦合器(grating couplers)在模封(overmolding)後通常會被遮擋。Marvell 在模封前於光柵區域上方放置矽或玻璃光學塊,以維持通往頂表面的光路,以便連接光纖陣列單元。Marvell 的 OMIB 測試載具上方有一顆主要 XPU 晶片與 6 顆 EIC 晶片,中介層內嵌入了 6 個 PIC、6 個電橋與 12 個深溝槽電容器晶片。該約 2 倍光罩尺寸的 RDL 中介層採用 4 層佈線,線寬線距為 2 微米。
Marvell 展示了一款概念性多晶片 XPU,利用晶片對晶片(chip-to-chip)的光學互連來降低延遲與跳數(hop count)。該公司聲稱 OMIB 移除了岸線限制,因為相同的橋接器既可路由封裝內的晶片對晶片連結,也能路由外部光學互連。Marvell 指出此方案的頻寬密度為每平方毫米 1.8 Tbps。
短期內,類似台積電 COUPE 的垂直堆疊光學引擎比 OMIB 風格的連接或全光子中介層更易實現。Marvell 使用 50 微米間距的微凸塊連接 EIC 與 PIC,然後將產生的引擎安裝至封裝基板或中介層上。基板配置可使用類似 UCIe-S 的並列匯流排,間距為 130 微米 C4 凸塊;中介層配置則可使用間距更緊密的 40 至 45 微米 UCIe-A 介面。Marvell 因其簡單性與更好的熱隔離效果,較偏好基板方案。
Marvell 使用 5 奈米 EIC(可能為台積電 N5)測試了光學引擎,具備 4 對 56 Gbps 發送-接收對,雙向各 224 Gbps。該設計使用電吸收調變器(EAM)而非其他公司偏好的微環調變器(micro-ring modulators),理由是其具備更好的熱穩定性與更寬的運作波長範圍。儘管這些優勢屬實,SemiAnalysis 認為 EAM 在大規模製造上將面臨困難。
Marvell 也比較了透過基板上 UCIe-S、矽中介層上 UCIe-A 以及矽橋接器上 UCIe-A 連接的光學引擎的熱特性。在 XPU 滿載下,基板上的 PIC 溫度上升不到 5 攝氏度,而中介層上約上升 25 攝氏度,橋接器上則約上升 20 攝氏度。有機基板的低導熱性與相對較大的毫米級氣隙隔離了 PIC。在兩種 UCIe-A 配置中,靠近 XPU 的細間距矽提供了低阻抗的散熱路徑。
熱瞬變(thermal transients)發生在 XPU 功率狀態變化後的約 30 毫秒內。PIC 在有機基板上以每秒約 10 攝氏度的速度加熱,而在橋接器上為每秒約 100 攝氏度,中介層上則為每秒約 120 攝氏度。Marvell 主張 EAM 偏壓可透過電子方式快速調整以追蹤這些變化,而環形調變器則需要受限於較慢時間常數的加熱器與回授迴路。
Lightmatter 則更深入探討了其 Passage M1000 中,將多光罩光子中介層與 ASIC 小晶片(chiplets)整合的組裝製程、光纖連接與封裝結果。該測試載具使用晶片上晶圓(chip-on-wafer)組裝,將 15 顆 ASIC 小晶片連接至 4 片瓦片(tile)組成的 M1000 中介層。SemiAnalysis 估計該中介層面積約為 2,100 平方毫米,約為 Hot Chips 2025 上展示的 8 片瓦片配置(4,000 平方毫米)的一半。
將此尺寸的矽中介層連接至有機基板會產生嚴重翹曲。該模組在 260 攝氏度回流溫度下翹曲約 59 微米,冷卻回室溫後約 56 微米。在 118 微米厚的中介層與約 176 微米間距的 C4 凸塊下,這足以損害接點形成。Lightmatter 使用磁性夾具在連接過程中保持基板平整,並回報超過 95% 的電氣組裝良率,封裝內具備健康的微凸塊與 C4 接點。
Lightmatter 使用了一顆具備 4 個獨立供電象限的熱測試晶片,每個象限散熱 170 瓦,在 369 平方毫米的主動區域上功率密度達每平方毫米 1.47 瓦。在此功率下,使用每千瓦每分鐘 1.8 公升流量的 25 攝氏度冷卻液,光子中介層溫度達到約 100 攝氏度。這驗證了在為超過 900 瓦(跨越近 3 個光罩的 ASIC 矽面積)設計的封裝中,從集中的測試晶片區域散熱 680 瓦的可行性。
混合鍵合邁向 450 奈米間距
混合銅鍵合的進展集中於兩種材料方案,旨在解決在降低鍵合溫度的同時,維持極度平坦與潔淨介面的持續挑戰。第一種使用有機介電材料,其機械順應性增加了對顆粒與表面粗糙度的容忍度,同時降低了鍵合應力。三井化學(Mitsui Chemicals)與日月光(ASE)展示了在 200 攝氏度與 10 微米間距下的無壓銅與聚合物鍵合。TOK 與陽明交大(NYCU)展示了 150 攝氏度下 10 秒的鍵合製程,在 200 攝氏度下鍵合的樣品在可靠性測試中維持了穩定的電阻。
第二種方案使用細晶銅。其較高的晶界密度加速了銅在較低溫度下的擴散,隨後的晶粒成長提升了導電性。Intel 將細晶銅與低溫介電堆疊結合,在 175 攝氏度與 200 攝氏度的退火後實現了均勻的晶圓鍵合。在三個樣品中有兩個的電氣良率約為 60%,儘管 Intel 表示由於測試載具與探針限制,這些結果屬於下限。這些實驗使用的是晶圓對晶圓(wafer-to-wafer)測試載具,而非該技術目標的晶片對晶圓(die-to-wafer)製程。
最積極的間距來自應用材料(Applied Materials)與 EV Group,他們展示了 450 奈米間距的晶圓對晶圓鍵合,在 2,000 萬個連結鏈中達到 98% 的良率。失效分析將斷路連結歸因於銅介面處富含碳的苯並三唑(benzotriazole)殘留物。PVD TaN 與 Ta 阻障層堆疊顯著提升了良率。CEA-Leti 則在無電漿活化下,經 100 攝氏度退火後實現了超過 97% 的良率。
綜合來看,這些結果證明降低間距與鍵合溫度,需要銅、介電質、化學機械研磨(CMP)、表面處理與退火製程的共同優化,才能實現低翹曲、無裂紋的混合鍵合。隨著材料供應商與設備廠商的持續精進,預計 2027 年後後鍵合良率將進一步提升。
玻璃基板取得進展,但 SeWaRe 問題仍待解
玻璃基板的熱度今年有所降溫,ECTC 上發表的創新論文較少。未解的問題仍是 SeWaRe(側向裂紋,Lateral Crack),即在 RDL 應力下,從切割後的玻璃邊緣開始產生的裂紋。喬治亞理工學院(Georgia Tech)透過實驗表徵了此失效,而康寧(Corning)則使用有限元素分析、近場動力學(peridynamics)與分析斷裂力學對其傳播進行建模,顯示堅硬的銅層會將裂紋推向玻璃中平面,而順應性聚合物層則會改變裂紋路徑。康寧亦發現,低熱膨脹係數聚合物結合適當的玻璃選擇,可降低失效風險。
STATS ChipPAC 調查了大型玻璃核心封裝的組裝與可靠性。其 74 毫米乘 74 毫米的玻璃核心封裝若無邊緣塗層,在每一項測試環節皆失效,而具備邊緣塗層的封裝則在無異常情況下完成了組裝與可靠性測試。邊緣塗層亦使翹曲度較無塗層的玻璃核心封裝降低了 33.5%。增層回縮(build-up pull-back)與邊緣塗層愈來愈像是可靠玻璃核心基板組裝的必要條件。
正面消息方面,Intel 展示了業界首款 510 毫米乘 515 毫米、24 層玻璃核心面板,具備完全銅填充的玻璃通孔(TGV)、兩個嵌入式 EMIB 橋接器,以及在 TGV 之間共形成的波導。該大型原型機在 Intel 展位展出,並於現有的有機基板生產線上處理,單體化(singulated)單元在熱衝擊測試後未出現 SeWaRe。作為 OSAT 採用者,Amkor 與 STATS ChipPAC 測得較薄的玻璃核心基板翹曲度較其有機參考樣品低 30% 至 40%,儘管組裝缺陷與 TGV 填充問題顯示該製程仍不成熟。玻璃技術正取得實質進展,但今年的數據仍支持製造開發,而非大規模量產採用。
RDL 線寬線距趨近 1 微米
儘管封裝尺寸持續增大,RDL 線寬與線距仍持續縮小,主要由支援未來 ASIC 對 ASIC 及 ASIC 對 HBM 連結、速率高達 64 Gbps 的 UCIe 3.0 推動。路線圖已從 2015 年左右的 10 微米線寬/線距演進至今日的 2 微米,1 微米成為下一個目標。邁向次微米時代將需要 RDL 佈線架構與製造製程的重大變革,製程將從半加成法(semi-additive plating)轉向大馬士革製程(damascene),用於 2 微米以下的銅佈線,其中化學機械研磨(CMP)平坦化與低收縮介電材料成為關鍵門檻。
Resonac 使用聚合物大馬士革製程與面板 CMP,在 320 毫米乘 320 毫米的玻璃面板上形成 2 微米線寬/線距,包含 4 層導通孔與溝槽結構。Imec 與富士軟片(Fujifilm)將大馬士革製程推向 300 毫米晶圓上的 1 微米線寬/線距。Ushio 在無拼接情況下,於 18 個光罩區域上解析出 1.5 微米線寬/線距,16 次曝光覆蓋了完整的 510 毫米乘 515 毫米面板。住友電木(Sumitomo Bakelite)與喬治亞理工學院展示了一種完全醯亞胺化的液態介電材料,在 200 攝氏度的相對低溫下僅有 4% 的固化收縮率,並具備 2 微米的精細線寬/線距。
作為最先進的 RDL 製造商,台積電與創意電子(GUC)合作發表了關於 8 層 RDL 縮放的研究,被認為是 CoWoS-R 平台的短期極限。GUC 展示了一種基於 STCO(系統技術協同優化)的設計與驗證流程,用於整合在台積電 N3 製程製造、並整合於 8 層 CoWoS-R RDL 上的 64 位元 UCIe-A 介面。其 STCO 架構使用接地-訊號-接地(GSG)交錯傳輸線來控制串擾與偏移,模擬顯示 C4 側整合被動元件(IPD)提供了局部去耦,並降低了小晶片微凸塊處的電壓波動。
該設計目標為 16 至 36 Gbps,採用 45 微米凸塊間距的 64 位元、10 行 UCIe-A 介面。訊號走線在 6 層上以 2 微米線寬/線距佈線,第 7 層保留供電。測試晶片在 32 Gbps 下測得晶片內眼圖寬度為 0.77 UI,模擬顯示在 36 Gbps 下眼圖寬度為 0.74 UI。結果證明有機中介層能滿足異質小晶片系統的訊號與電源完整性要求。