取得RTX Pro 6000
RTX Pro 6000是全新的顯卡,比看起來更重,而且很難取得。為了得到這張卡,我打了多通電話、發了多封電子郵件。今天,我要將它與其他顯卡進行比較。
參與比較的顯卡
這裡有RTX 3050低階版、5060 Ti、5090以及RTX Pro 6000。RTX Pro 6000在我最近組裝的AI機器中不會佔用太多空間。
效能測試目的
我想看看每秒能得到多少個token,以及它是否值得,因為這張卡的價格不便宜。這些顯卡都是我自己買的,Nvidia並沒有送我。
不同顯卡的VRAM比較
RTX Pro 6000每張有96 GB的VRAM,5090有32 GB的VRAM,需要三張5090才有一張RTX Pro 6000的VRAM量。
不同顯卡在不同模型下的效能
-
5090:在某些模型上運行成功,如120億或320億參數量化後的模型,但700億參數的模型不行。運行700億參數模型時,每秒只有1.8個token,表現不佳。
-
RTX Pro 6000:運行同樣的700億參數模型,每秒可達7個token。
RTX Pro 6000的其他特性
-
電源和連接:有電源線和四個Display Port連接。
-
功耗:機器開機閒置時功耗約90 - 100瓦。這張卡最大可承受600瓦功耗,此時性能最佳、速度最快。若設為300瓦,噪音會較小,但速度會變慢。
不同模型在RTX Pro 6000上的測試
小token提示
- 先從最小的1個token提示開始,這能顯示最快的結果,每秒可達31.89個token,勝過5090。
Gemma 3模型
- 加載Gemma 3模型,每秒可達215個token,速度驚人。
700億參數模型
-
700億參數模型有不同的量化等級,如Q4(約40 GB)和Q8(約70 GB)。
-
測試Q8模型,若只將66/80層卸載到GPU,每秒只有3個token,表現很差。
-
將80/80層都卸載到GPU,每秒可達20個token。
長提示測試
- 輸入205個token的長提示,每秒約18個token。
廣告環節
介紹Chat LLM Teams,它整合了多個頂級LLM,能為不同任務選擇合適的模型,每月只需10美元。
FP16和F32模型測試
-
FP16模型:測試Quen Coder 320億參數instruct FP16模型,每秒可達23個token。
-
F32模型:測試70億參數的F32模型,每秒可達51個token。
與Apple矽晶片機器比較
- M4 Max:測試Quen 2.5 coder 320億參數FP16模型,每秒只有7.63個token;測試Mistral 7B F32模型,每秒18個token,都遠遜於RTX Pro 6000。
超長提示測試
-
要求GPT-3生成至少4000個token的複雜提示,結果生成了35000個token的提示。
-
將此提示輸入LM Studio,因模型不支持超過32000個token的上下文,未能成功。
-
調整後,使用支持較長上下文的Gemma 3 120億參數模型和Quen 2.5 coder 320億參數instruct Q8模型。
-
設置40000個token的上下文長度,模型成功加載,處理提示時速度很慢,每秒約17個token,首次生成token花了29.9秒。
各顯卡效能比較
-
700億參數模型:只有RTX Pro 6000能運行,每秒33個token。
-
其他模型:5090在大多數較小模型和4或8位量化模型上速度更快,儘管RTX Pro 6000有更多CUDA核心。
分析與結論
-
價效比:RTX Pro 6000每秒215個token,M3 Ultra每秒100個token。M3 Ultra Max Studio售價10000美元,RTX Pro 6000零售價在7500 - 11000美元之間,即使按全價計算,RTX Pro 6000的價效比也幾乎是M3 Ultra的兩倍。
-
優劣勢:M3 Ultra可擴展至512 GB記憶體,能運行更大的模型,但速度較慢。RTX Pro 6000在原始性能上更優秀,若能拿到優惠價,價效比幾乎是M3 Ultra的三倍。
-
遊戲性能:RTX Pro 6000也能運行遊戲。
總之,RTX Pro 6000在AI相關任務的性能上表現出色,是追求高性能的不錯選擇。