親愛的朋友們,在本影片中,我們將探討 HBM 記憶體。若您關注美國商務部的出口管制,會發現 HBM 是他們較為關注的領域,因其是當代 AI 技術非常關鍵的硬體發展。換言之,它決定了 GPU 的運算性能,掌控著整個 AI 產業的發展。
HBM 是什麼?
我們通常關注算力,但其背後有個重要因素是存儲力。HBM 即 High-Benefit Memory(高收益記憶體)。常聽到的記憶體有 LPDDR、DDR、GDDR 等,廣泛應用於手機、電腦、顯卡等。HBM 同屬 DRAM 存儲(動態隨機存儲),基於電源存儲數據。
HBM 有許多層,通常為 4 層、8 層、12 層 DRAM 直接堆疊,而其他 DDR 存儲是平面佈局。這種立體形式賦予 HBM 獨特性能,即數據傳輸帶寬非常大,故稱為高帶寬存儲,實際上是 DRAM 的先進解決方案。
HBM 的結構
看這張圖,第四層是 DRAM 晶粒,負責數據存儲;底部的邏輯晶粒是邏輯晶片,主要負責控制這些存儲單元,包括信號處理、讀寫操作、電源管理等。這套東西形成 HBM 堆,旁邊是 CPU、GPU 或 SOC 級別的帶子。這些帶子和 HBM 通過底部的 Interposer 層(中間層)連接,底部是風景底座。
HBM 涉及的主要技術
這裡主要涉及兩項技術,一是 TSV(背孔技術),二是 MU-BUMP(V2 點)。
TSV 技術
在 HBM 範圍的多層 DRAMs 中,主要依靠背孔實現信號和電源連接。這些孔在 D-RAM 晶粒完成後製作,其難度在於孔要精緻且準確,對技術挑戰很大。因為這孔實際上是個井,要求很高的深寬比,如深度 50 至 100 毫米,深寬比達 10 至 1 測試不易。還要準確控制石頭的均勻性,避免扇形裂紋或底部裂紋,完成後用金屬填充,在狹窄深井中實現均勻填充也是難點。
這些操作都在微米級別進行,需要大量工程參數來找到固態氣體體的洲際比、等離子體的溫度和功率以及控制工程質量的壓縮機公式,這些都是頂級商業秘密。此外,TSV 的孔實際上稱為工程的 VMA,因其主要位於前後端工程的中間。D-RAM 通過前端工程完成後,會進入打孔環境,此時 DRAM 已由一系列電容器等電路製成,TSV 必須一次打數千個孔,不僅高精度打孔極具挑戰,還會對已製成的 DRAM 有影響。
由於此時 DRAM 已完成,TSV 部分的熱計算有很大限制,不能使用過高溫度,否則會影響電容器或電容管的特性,這實際上提高了 TSV 工程的複雜性。而且在 HBM 中,由於是多層 DRAM 接觸,TSV 之間的平衡也是問題,層數越多,打孔越多,單層和多層都有很大挑戰,在工業層面有進度要求,實際使用時還要考慮打孔和填充引起的熱縮和填充問題,在材料和設計方面有很強的技術壁壘。
V2 點技術
TSV 完成後,在多層 DRAM 之間或上下兩層 TSV 之間,通過 V2 點進行連接,連接上、下孔,並為整個 HBM 提供足夠的機械支撐。
HBM 為何稱為高帶寬內置?
這主要是因為其寬度很大,通常為 1024 倍。HBM 無論有多少層,都會分成多個邏輯通道,通道數通常為 8,也有 12 但較少,每個通道的寬度是 128(標準),所以 8 個通道是 1024 倍,12 個通道是 1536 倍。
而正常的 DDR 系列,如範圍內最大的 GDDR 系列,只有 32 核(標準),這是因為正常 DDR 和 HBM 的設計策略不同,前者是高頻、低帶寬,後者是低頻、高帶寬。因此,DDR 的故障率很高,影響率也很高,但帶寬很小,其帶寬不能設置太高主要是基於一系列技術和成本的綜合考慮。
HBM 有 1024 核,明顯多於 GDDR2。即使 GDDR2 的時鐘頻率很高,但由於帶寬低,其帶寬也遠低於 HBM。例如,最先進的 GDDR7 以 32 位帶寬可達 32GB 每秒,其單核晶片帶寬是 128GB 每秒;而目前最先進的 HBM-3E,1024x1,帶寬約為 1.2TB 每秒,差距明顯。
HBM 能做到 1024x1 是因為前面提到的 TSV 和 V2.1 技術,能在 DRAM 上打數千個孔並緊密連接,這些技術使 HBM 內能生產如此高強度的數據線,而一般 DDR2 記憶體受工藝限制密度沒那麼高,所以 HBM 是工藝驅動的發明。
HBM 的優勢
有人問,若放 12 層 HBM,其帶寬是 1.2T 每秒,因為這帶寬主要與通道數據有關,與層數無關,那評估 12 個 GDDR7,12 個 GDDR7 的系統寬度是 384,帶寬是 1.5T 每秒,不是比 HBM3E 還多?當然不是。
首先,HBM 低頻運行,功耗低;其次,使用 TSV 和 V2.0 技術實現 DRAM 之間的緊密集成,電纜長度從 GDDR 變為 VMI,信號延遲低,響應快;最後,由於團隊戰的設計,即使總容量相同,HP-M 能節省大量物理空間,12 層 HP-M 團隊戰比 12 個 GDDR7 有很大優勢。此外,HP-M 還能放置很多基於系統的單元,這遠超 GDDR7 的狼熊戰術。
這種高寬設計特別適合數據量如此大的 AI。很多人聽過“記憶體牆”,即當前計算效率嚴重受到數據讀寫速度的限制。基於馮·諾依曼架構,現代電腦是數據分離設計,數據必須在計算設備和存儲設備之間頻繁移動。
過去 20 年,計算設備的性能提高了約 90,000 倍,而記憶體帶寬的增長僅約 30 倍,差距巨大。這導致 Nvidia 的 GPU 在不斷優化架構時,必須在數據帶寬上有大的突破,HBM 的目的就是盡可能緩解記憶體牆的問題。
近年來,Nvidia 的 GPU 能不斷刷新性能,很大程度上是 HBM 的技術突破之一,可以說傳統 DDR 和 HBM 之間有兩個時代。HBM 能爆發實際上是近年來 AI 的崛起,一般認為應能追溯到 2016 年的 AlphaGo 和百麗。在 AI 產業,很多研究和突破實際上是在這之後誕生的,包括 2007 年的著名論文。英偉達自 2016 年起在 Pascal 結構中首次引入 HBM 系統,由於 HBM 分為八個邏輯通道,實際上能支持更多隨機和並行訪問數據,GDDR 也可以,但更適合有序訪問,適合說服。
HPM 的特點是特別適合基於 AI 的訓練和推理,這是對 HPM 真正優勢的補充。
HBM 產業現狀
目前,SK 海力士、三星和美光在 HPM 領域是絕對的大師,三者幾乎完全瓜分了這個市場。其中,海力士和三星領先,美光在後。
海力士和三星之間,前者有一定優勢和技術壁壘。早在 2013 年,海力士和 AMD 共同開發 HPM 技術,並於 2015 年首次應用。但當時的 HPM1 與高端 DDR 產品相比,在以消費者為主導的市場中並未顯示出明顯優勢,導致 AMD 恢復 DDR 系列產品,海力士也放緩了這些技術的發展。
直到 2016 年,AI 在業內迅速爆發,海力士趁機在 2018 年推出 HBM2,2020 年迅速推出 HBM2E。自 2018 年起,Intel 數據中心 GPU 基本上都在適配海力士的 HBM,兩者形成了緊密的合作關係。後來,Intel GPU 被賣出,海力士直接在 HBM 領域成為世界上最大的供應商。然後海力士利用三星軍團,推出 HBM-3 和 HBM-3E 佔領技術高地。
三星雖然進入時間不晚,在 HBM-1 上沒有量產,而是在 2016 年直接上 HBM-2,2019 年推出 HBM-2E。但三星在發展過程中有些落後,沒有提前綁定 Nvidia 的大船,早期可能在一些基於 POSCO 的 GPU 中使用過,但存在感不強。後期在 JPU H20 中也放了一些 H20 的量,專為中國製作。到目前為止,三星的份額實際上低於海力士,但遠高於美光。
美光更厲害。當時高端記憶體技術有兩條路,一是 HPM,二是 HMC。HMC 也是 DRAM 晶片的堆疊,但與 HBM 的區別在於它不是通過中間層和 GPU 連接到電腦晶片互聯網,而是通過特殊的高速數據網絡,導致其延遲更大,與 GPU 的交互相對較短。後期 HMC 沒有得到行業機構的認證,失去了數百家會員公司的認可,導致這個標準被廢除。
美光之前在 HMC 上投入了大量資金,直到 2018 年才徹底改變主意,開始搞 HBM。為了趕上對手,美光在 2020 年直接量產 HBM-2E,相當於跳過了兩代產品。後來在 2024 年,跳過 HBM-3 直接量產 HBM-3E,並成功打敗英偉達,出現在 H200 上。雖然美光在 HBM 市場的份額後期不高,但這個高端團隊已經玩起來了。
總體而言,海力士在技術和市場方面有一定優勢。畢竟 HPM 主要被數據中心的 GPU 使用,而英偉達是這個領域最大的供應商,也是 HPM 市場最大的客戶。雖然英偉達不會把雞蛋放在同一個籃子裡,但海力士目前的合作關係相當深厚,短期內優勢仍然非常明顯。
HBM 市場的未來
但我們要說的是,下一個 HBM 市場實際上才剛開始。這三家 HBM 製造商一直在積極幫助 HBM 市場,都希望進一步吃掉英偉達的大單。我認為在可預見的未來,市場形勢將進一步多元化,因為當前 AI 產業已經處於指數發展階段。
中國 GPT 爆發後,這三家製造商也開始了 HBM-4 的開發。因此,這一代硬體可以看作是中國 GPT 節點上的競爭,技術改進相當顯著。威寬直接做到 2048,並引入混合集成技術,現在更小,已達到 16 級。在工業層面,如 HLIC 和台積電直接把 HBM 放在 GPU 頂部,進一步縮短了兩者之間的距離。所以與第五代技術相比,HBM4 更像是 AI 時代的產品,更可見。
中國在 HBM 的進展
根據公開信息,新儲存已經做了很多技術設備,專利也申請了很多。HBM2 應該說已經掌握,預計在 2026 年發布。HBM2E 應該也有一些進展,在技術上期待 HBM3。目前能說的就這麼多。我是大劉,謝謝觀看。