Video thumbnail for Skip M3 Ultra & RTX 5090 for LLMs | NEW 96GB KING

96GB 記憶體稱霸!RTX Pro 6000 vs. RTX 5090 深度評測:AI 模型運行速度大比拼

Summary

Language:

Quick Abstract

想知道最新的 RTX Pro 6000 在 AI 任務中的表現如何嗎?這段影片深入評測了這張頂級顯卡,並將其與 RTX 5090 和 Apple M3 Ultra 等其他熱門選擇進行比較。我們將探討它在處理大型語言模型(LLM)時的速度、功耗以及價值,看看它是否能勝過 VRAM 較小的 RTX 5090。

Quick Takeaways:

  • RTX Pro 6000 擁有驚人的 96GB VRAM,可以運行更大的模型。

  • 在某些測試中,RTX Pro 6000 的速度略遜於 RTX 5090,儘管其 CUDA 核心更多。

  • 對於某些任務而言,RTX Pro 6000 的每美元算力比 Apple M3 Ultra 更高。

  • 影片測試了不同量化級別和模型大小的性能,包括 FP16、F32、Q4 和 Q8。

  • 探討了使用超長提示詞(超過 35,000 個 token)的可能性。

  • 分析了 RTX Pro 6000 在各種 LLM 任務中的功耗和散熱情況。

取得RTX Pro 6000

RTX Pro 6000是全新的顯卡,比看起來更重,而且很難取得。為了得到這張卡,我打了多通電話、發了多封電子郵件。今天,我要將它與其他顯卡進行比較。

參與比較的顯卡

這裡有RTX 3050低階版、5060 Ti、5090以及RTX Pro 6000。RTX Pro 6000在我最近組裝的AI機器中不會佔用太多空間。

效能測試目的

我想看看每秒能得到多少個token,以及它是否值得,因為這張卡的價格不便宜。這些顯卡都是我自己買的,Nvidia並沒有送我。

不同顯卡的VRAM比較

RTX Pro 6000每張有96 GB的VRAM,5090有32 GB的VRAM,需要三張5090才有一張RTX Pro 6000的VRAM量。

不同顯卡在不同模型下的效能

  • 5090:在某些模型上運行成功,如120億或320億參數量化後的模型,但700億參數的模型不行。運行700億參數模型時,每秒只有1.8個token,表現不佳。

  • RTX Pro 6000:運行同樣的700億參數模型,每秒可達7個token。

RTX Pro 6000的其他特性

  • 電源和連接:有電源線和四個Display Port連接。

  • 功耗:機器開機閒置時功耗約90 - 100瓦。這張卡最大可承受600瓦功耗,此時性能最佳、速度最快。若設為300瓦,噪音會較小,但速度會變慢。

不同模型在RTX Pro 6000上的測試

小token提示

  • 先從最小的1個token提示開始,這能顯示最快的結果,每秒可達31.89個token,勝過5090。

Gemma 3模型

  • 加載Gemma 3模型,每秒可達215個token,速度驚人。

700億參數模型

  • 700億參數模型有不同的量化等級,如Q4(約40 GB)和Q8(約70 GB)。

  • 測試Q8模型,若只將66/80層卸載到GPU,每秒只有3個token,表現很差。

  • 將80/80層都卸載到GPU,每秒可達20個token。

長提示測試

  • 輸入205個token的長提示,每秒約18個token。

廣告環節

介紹Chat LLM Teams,它整合了多個頂級LLM,能為不同任務選擇合適的模型,每月只需10美元。

FP16和F32模型測試

  • FP16模型:測試Quen Coder 320億參數instruct FP16模型,每秒可達23個token。

  • F32模型:測試70億參數的F32模型,每秒可達51個token。

與Apple矽晶片機器比較

  • M4 Max:測試Quen 2.5 coder 320億參數FP16模型,每秒只有7.63個token;測試Mistral 7B F32模型,每秒18個token,都遠遜於RTX Pro 6000。

超長提示測試

  • 要求GPT-3生成至少4000個token的複雜提示,結果生成了35000個token的提示。

  • 將此提示輸入LM Studio,因模型不支持超過32000個token的上下文,未能成功。

  • 調整後,使用支持較長上下文的Gemma 3 120億參數模型和Quen 2.5 coder 320億參數instruct Q8模型。

  • 設置40000個token的上下文長度,模型成功加載,處理提示時速度很慢,每秒約17個token,首次生成token花了29.9秒。

各顯卡效能比較

  • 700億參數模型:只有RTX Pro 6000能運行,每秒33個token。

  • 其他模型:5090在大多數較小模型和4或8位量化模型上速度更快,儘管RTX Pro 6000有更多CUDA核心。

分析與結論

  • 價效比:RTX Pro 6000每秒215個token,M3 Ultra每秒100個token。M3 Ultra Max Studio售價10000美元,RTX Pro 6000零售價在7500 - 11000美元之間,即使按全價計算,RTX Pro 6000的價效比也幾乎是M3 Ultra的兩倍。

  • 優劣勢:M3 Ultra可擴展至512 GB記憶體,能運行更大的模型,但速度較慢。RTX Pro 6000在原始性能上更優秀,若能拿到優惠價,價效比幾乎是M3 Ultra的三倍。

  • 遊戲性能:RTX Pro 6000也能運行遊戲。

總之,RTX Pro 6000在AI相關任務的性能上表現出色,是追求高性能的不錯選擇。

Was this summary helpful?