人工智慧演算法軍備競賽:AMD 與 Nvidia 的較量
在今日的人工智慧演算法軍備競賽中,Nvidia 的 GPU 幾乎已成為全球資料中心的標準,而 AMD 的產品似乎總是游離於主流市場之外。儘管 AMD 近年頻頻推出如 MS300X 和 MS325X 等重磅產品,在某些技術參數上甚至超越對手,但市場反饋卻一直不溫不火。這背後隱藏著怎樣的技術博弈和市場邏輯?
深入報告揭開神秘面紗
半導體分析機構 SEMIANALYSIS 歷時六個月完成了一份超長深度報告,或能為我們揭開這層神秘面紗。該報告不僅涵蓋了兩家公司產品性能的全面比較,還深入探討了總擁有成本、租賃市場生態等關鍵問題,甚至直接或間接地指出,為何除了大型雲服務提供商外,幾乎沒有公司願意使用 AMD 的 GPU。
測試驗證與複雜結果
長期以來,市場上一直流傳著 AMD 的 AI 伺服器在總擁有成本方面具有更好推理性能的說法。為驗證這一假設,Semi-Analysis 團隊進行了長達 6 個月的馬拉松式測試。他們的目標很明確,就是比較 AMD 和 Nvidia 推理解決方案在真實生產環境中的實際性能。
然而,測試結果比團隊預期的要複雜得多。因為在不同的任務類型中,兩者的性能表現存在驚人的差異。無論是聊天應用、文件處理還是專業推理場景,硬體和軟體的影響、延遲要求以及工作負載的兼容性都成為影響最終結果的變數。
這次測試的核心方法論是突破傳統離線標準測試的限制,專注於在線負載和端到端延遲的動態平衡。簡單來說,就是模擬真實用戶的響應場景。通過逐漸增加發送到系統的用戶數量,觀察系統在壓力下的延遲,從而獲得更接近實際運行條件的消耗指標。這種以用戶體驗為先的測試邏輯,使得結論數據更加真實且具有指導性。
模型選擇與場景設定
在模型選擇方面,測試團隊精心挑選了幾個具有代表性的密集結構和稀疏混合專家結構模型。前者以 FP16 分辨率的 L3-70B 和 L8-405B 模型為代表,後者則使用了 FP8 分辨率的 DPSeqv3-670B 模型。
值得注意的是,從算法強度、活動參數的接近程度、參數總數以及內置對話模式等方面來看,DeepSig V3 的模型結構與 OpenAI 的 4O、4.1、O1、O3 等非常接近,是測試 OpenAI 內部模型結構的最佳代理模型。這意味著其測試結果具有重要的參考價值。
此外,為了反映實際推理場景和性能特徵,團隊還對三種不同的輸入和輸出令牌長度組合進行了基本測試。對於密集解碼任務的計算,採用了 4K 輸入和 1K 輸出的設置,此場景主要基於大規模通用矩陣乘法運算,對預填充的性能要求較高;對於平衡型對話任務,採用了 1K 輸入和 1K 輸出的設置,均衡了預填充和解碼的性能需求;對於對內存帶寬敏感的推理任務,採用了 1K 輸入和 4K 輸出的設置,這種性能通常受內存帶寬而非計算能力的限制。可以說,這三種場景充分涵蓋了不同業務需求下的性能痛點。
推斷引擎的選擇
推斷引擎的選擇也非常具有挑戰性。VLLM 因其廣泛的兼容性而成為 LAMA3 系列的主要測試框架;TENSOR RT-LLM 展現了 Nvidia 在自有硬體上的深度優化能力;而 SG-LUN 由於在處理大規模模型方面的效率,成為了 DeepSync V3 的首選。
值得一提的是,測試團隊還特別評估了卷積和 TP 配置的影響。例如,AMD MI300X 支持 TP4 和 TP8,而 Nvidia H100 由於內存限制只能支持 TP8。這種基礎結構上的差異直接影響了高頻場景下數據的通信效率。
硬體規格與性能比較
首先來看紙面上的實力對比。在硬體規格方面,AMD 的 MI300X 和 MI325X 數據引人注目。MI300X 擁有 192GB 的 HBM 容量和每秒 5.3TB 的帶寬,單節點理論帶寬可達每秒 42.4TB;MI325X 則擁有 256GB 的 HBM 和每秒 6TB 的帶寬,刷新了記錄。
相比之下,擁有 144GB HBM 和每秒 4.8TB 帶寬的 H200 似乎稍遜一籌。但採用 Blackwell 架構的 B200 卻能達到每秒 8TB 的驚人帶寬,單節點理論帶寬甚至高達每秒 64TB。這種帶寬差距或許可以解釋為何 AMD 在 2025 年第一季度的市場份額因 Nvidia 新產品的發布而下降。
然而,我們都知道,參數上的優勢並不直接等同於實際性能上的優勢,最終還得看具體的測試結果。
在 Lama3 70B IP16 的測試中,不同場景導致了一些戲劇性的結果。在聊天和翻譯等 1K 輸入和 1K 輸出的平衡任務中,在低延遲場景下,H100 和 H200 藉由 VLIM 輕鬆領先。但在 P 處理的規模和頻率提高後,MI325X 的高帶寬優勢開始顯現,即使採用 TPE 配置也是如此。
但在 1K 輸入和 4K 輸出的內存敏感任務中,H100 由於帶寬限制而落後,每個 GPU 每秒處理的令牌數很快穩定在 900 左右。MI325X 相對穩定,但在高延遲下功耗最高。搭載 Tanser RT-LRI-M 的 H200 則展現出綜合優勢,尤其是在內存管理方面,使其能夠在全延遲下保持足夠的高性能,表現無懈可擊。
在 Lama3 405B FP8 大型芯片模型測試中,AMD 的硬體優勢更加明顯。在 1K 輸入和 1K 輸出場景中,MI325X 和 MI300X 在不到 40 秒的時間內就超過了所有 Nvidia 配置,凸顯了大內存對大型模型的重要性。但搭載 Tansel RT-L2IM 的 H200 再次展現出驚人的技術深度,內存利用率的優化使其能夠在高頻下保持近每秒 1000 個令牌的處理能力。
在 1K 輸入和 4K 輸出的內存受限場景中,MI325X 完全壓制了配置 VLIM 的 H200。然而,在 TensorRT 和 VLIM 的支持下,H200 仍領先 MI325X 1.5 倍。這表明推斷引擎的優化潛力甚至可能超過硬體本身的參數差異。
在 DeepSync v3 670B FP8 測試中,H100 由於單節點內存限制無法運行此模型,H200 與 Mi300X 和 Mi325X 的競爭也呈現出明顯的場景分化。在低延遲、高互動的聊天場景中,H200 幾乎全勝。Mi325X 僅能在 25 至 35 秒的小範圍內與 H200 競爭。但在高延遲任務中,Mi325X 每美元的性能比 H200 高出 20% 至 30%。這或許也能解釋為何一些大型企業願意為 AMD 的長期成本優勢埋單。
整體測試表明,在大多數場景中,MI300X 與 H200 相比仍缺乏足夠的競爭力,尤其是在低延遲場景中。搭載 Tanser RT LRM 的 H200 性能幾乎壓倒對手。但在某些特定領域,AMD 仍展現出其獨特優勢。例如,在 Lama 3 405B 和 DeepSeq V3 670B 等大型模型的測試中,MI300X 的絕對性能和成本效益超越了 Nvidia 的 H100,這主要得益於 AMD 更大的內存帶寬和容量,能夠有效處理大規模參數的存儲和調用。
總擁有成本分析
從長期來看,AMD 確實展現出一定的優勢。MI300X 每小時的總成本為 1.34 美元,低於 H100 的 1.58 美元和 H200 的 1.63 美元,資本成本比約為 70%。
在 Lama3 70B 的超低延遲任務中,MI325X 和 MI300X 每百萬個令牌的成本都優於 Nvidia。但隨著延遲的增加,Nvidia 的規模效應和軟體優化使其成本效率反超。
值得注意的是,MS-325X 在某些場景中的性能提升未能轉化為成本優勢,因為其價格上漲幅度超過了性能提升幅度。這對企業的採購決策將是一個真正的挑戰。
一般來說,對於大型企業而言,直接購買 AMD GPU 並長期運營可能更經濟,尤其是在處理大規模密集模型時。硬體成本的節省可以抵消軟體生態的不足。但對於中小企業或臨時有計算需求的企業來說,租賃市場的高成本和稀缺性使得 AMD 幾乎成為不可能的選擇。這種市場的兩級分化本質上是供應鏈生態和商業模式差異的集中體現。
軟體生態與研發投入
從測試結果可以看出,AMD 真正的挑戰不在於硬體參數,而在於軟體生態的建設。Nvidia 的 CUDA 生態系統已積累數十年,擁有超過 200 萬開發者和數萬個應用程序。而 AMD 的 ROCK-M 平台在 CI 覆蓋率、數據質量和核心方面與 CUDA 存在明顯差距。
例如,Tansel RT LRM 的開發者體驗雖然在不斷變化,但仍在持續優化中。而 AMD 的 SG-LAN 市場覆蓋率不到 Nvidia 的 10%,用戶需要手動調整大量環境變量才能接近峰值性能。這對普通商業用戶形成了非常高的技術門檻。
研發投入結構也是一個值得關注的因素。AMD 上季度在股票回購上花費了 74.9 億美元,而內部研發總投入僅為 1300 萬美元。這種回報股東而輕視技術積累的策略,導致 AMD 的軟體生態發展相當緩慢。
相比之下,Nvidia 投入了大量資源用於開發者工具和框架的優化。雖然 TensorFlow RT 和 LRM 的 Python 版本仍不夠完善,但已展現出追求的態度。AMD 在編解碼等先進技術方面的短板,進一步拉大了與競爭對手的差距。
租賃市場生態差異
租賃市場的生態差異也成為 AMD 難以跨越的紅線。目前,有 100 多家新的雲服務提供商為 Nvidia GPU 提供中期服務,即六個月內的租賃服務。充分的市場競爭將 H100 和 H200 的租賃成本推至非常低的水平。
而對於 AMD,只有少數供應商為 Mi300X 和 Mi325X 提供短期租賃,市場的稀缺性也導致 AMD GPU 租金過高。例如,Mi300X 一個月的租金超過每小時 2.5 美元,而同期 H200 僅需約每小時 2.5 美元,甚至市場上幾乎找不到 Mi325X 一個月的租賃合同。
這使得中小企業在不需要長期維護硬體時,幾乎不可能選擇 AMD,而這正是主流市場的需求。Semi Analysis 分析認為,如果 AMD GPU 想在租賃市場與 Nvidia 競爭,就必須將租金降至合理範圍。例如,MS300X 必須降至每小時約 1.9 至 2.4 美元,MS325X 必須降至每小時約 2.5 至 3 美元。
未來展望
最後,SEMI-Analysis 認為,面對 Nvidia Blackwell 架構的強大衝擊,AMD 的反應節奏似乎稍顯落後。不僅 MI325X 的大規模出口比 H200 晚了一個季度,MI355X 更要等到 2025 年底。此時,Nvidia 的 B200 早已搶佔市場先機。
但 AMD 也不是沒有機會。畢竟,MSI 55X 擁有 288GB 的 HBM 和每秒 8TB 的帶寬,可以說是 200 的對手。如果能匹配快速跟進的軟體優化,在 2026 年仍有希望重現部分競爭格局。
然而,對於整個行業來說,這種雙雄爭霸的局面正是技術進步的動力。由於 AMD 的生態孤立和成本優勢,形成了一種微妙的平衡。超大型企業的定制化需求和中小企業的靈活採購模式共存,表明未來的演算法市場將呈現出更加複雜的分裂結構。
對於開發者和用戶來說,我們需要做的是密切關注硬體和軟體生態系統的交織,把握技術發展的趨勢變化。
這就是本文的主要內容。說到這裡,作者 Dylan 對 Nvidia 和 AMD 的比較確實非常執著。他之前曾專門寫過兩篇文章分析 AMD GPU 的問題,還接受過 Suma 的採訪。這次他又毫不猶豫地寫了一篇。你是否同意 Semi Analysis 文章中對 AMD 的分析?歡迎在評論區留言。感謝收看本期視頻,我們下期再見。