目錄
- 渦輪風扇+雙側進風:單槽顯卡散熱上的改進
- 規格篇:如何把Ampere多一倍的CUDA Core用起來
- SPECviewperf測試:RTX A4000為何在4K分辨率下更好?
今年初我做過PCIe 4.0 SSD的測試。在大多數情況下,由於顯卡以前就是工作在PCIe 3.0 x16帶寬下,所以4.0的效果可能不是那麼明顯。比如我看到在有些針對發燒級用戶的外星人筆記本上,只把PCIe 4.0 x8分配給顯卡用,這應該是為了給高速SSD留出更大空間。簡單說,顯卡在PCIe 4.0的性能加成還是應用相關的,具體到專業顯卡,還是要跑工作站上的圖形應用來看看。
在上一篇《暗藏Win7支持?NVIDIA RTX A4000專業顯卡另類測試》之後,性能評估我拖的有點久。
其實在每次NVIDIA發布新的工作站顯卡時,都會有一些官方宣傳的性能提升,比如A4000比上一代的Quadro RTX 4000,乃至上上代P4000快了多少。但這個數往往只是概括的比例,即使提到有的應用軟件,你也不知他具體做的哪個操作?用了什麼樣的模型/場景?顯示幀率提高了多少FPS、渲染時間縮短多少秒之類。這就是我自己要實際測試一下的原因。
我第一次在PCIe 4.0平台上的顯卡測試。上圖中RTX A4000的具體規格,我會在下文中對比分析。
此次我初步規划了3-4篇。如果只是把測試跑完,我發現還花不了太多時間和精力,但每次整理成文分享給大家,多少會有點“煎熬”的過程。
- SPECviewperf 2020v2.0摸底測試,HD和4K分辨率(本文)
- SolidWorks 2021應用測試,含Visualize渲染;
- 更多光線追蹤、渲染測試(Blender、V-Ray、KeyShot、OctaneBench)…
在每次測試之前,我也會依據已有參數憑經驗先來一個預估,當然測試結果未必都是符合的(這也正是測試有意思的地方)。另外我也會着重於驗證新顯卡在圖形、CUDA計算/RTX渲染等方面的性能特點,設計、散熱上有哪些需要注意的地方。
渦輪風扇+雙側進風:單槽顯卡散熱上的改進
上一次測Ampere架構顯卡,還是去年的《RTX3090初測:雙寬渦輪風扇設計,訣竅與“煩惱”》。大家還記得公版GeForce RTX 3080/3090那樣的“穿透式”風扇設計嗎?這次的RTX A4000專業顯卡則是結合了渦輪和雙側鏤空2種特點的散熱器,大家想到價值在哪裡了嗎?
由於4000系列這個級別的專業顯卡保持PCIe單插槽寬度,當上一代RTX 4000加入光追之後發熱量就有些大了,滿載時風扇有點吵,也聽到有的用戶反映過溫度偏高。
我並不懷疑Quadro專業顯卡在正常環境溫度下的穩定性,但RTX 4000板卡本身的TDP(熱設計功耗)是125W,A4000又提高到140W,仍然是單槽空間,散熱設計改進勢在必行。
以往的渦輪風扇(包括Turbo版RTX 3090那些雙槽的)都是只能從顯卡正面一側進風,而此次A4000可以從背面同時吸入空氣,這樣在多卡高密度環境下的好處更明顯——因為以前往往是最上面的卡溫度更高。
顯卡背面能看出來的,主要是保持AmpereGA10x這一代較小的板卡尺寸,16GBGDDR6顯存都放在PCB的正面。
RTX A4000在散熱出風口位置的開孔率比之前有提高(對比下圖中的RTX4000)。不過畢竟是單槽顯卡,不可能達到渦輪版RTX3090那樣鏤空面積,畢竟後者是350W功耗。
上圖為Quadro RTX 4000,在PCIe I/O擋片上的小圓孔看着確實沒有新一代A4000的散熱排氣效果好。
由於上一代RTX4000顯卡設計了一個VirtualLink Type-C接口,可以給VR頭盔等外設供電,所以功耗可達160W,不得不使用8-pin PCIe供電。A4000老老實實退回4個DP輸出,不超過150W所以設計6-pin供電就ok了。
RTX A4000專業顯卡上保持STEREO 3D Vision立體眼鏡接口(通過一個轉3pin miniDIN的配件),以及連接G-Sync同步子卡的接口。這裡的G-Sync是為了保持多張顯卡、乃至多台主機輸出之間的同步刷新相位,在大屏拼接,特別是立體投影和VR這樣的場合很重要。(擴展閱讀:《NVIDIA Quadro 20周年記:專業顯卡的前生今世》)
感謝之前有同行朋友對RTX A4000做了拆解,在上一篇Win7驅動測試中我已經借用過一張照片,這裡再借用一張:)我對顯卡拆解的興趣沒有年輕時那麼大了,因為長得是否好看,都不如實際應用性能重要。
規格篇:如何把Ampere多一倍的CUDA Core用起來
以上規格都來自於NVIDIA官方文檔,以及在驅動控制面板里就能看到的頻率。
從Quadro M4000開始,一直到P4000、RTX 4000都是8GB顯存,如今A4000終於提升到16GB,要不面對GeForceRTX 3060 12GB也有點太沒面子了:)關於ECC內存校驗支持,我在上一篇中已經實測過了。
RTX A4000和上一代QuadroRTX 5000的顯存帶寬同為448GB/s,這顯然不是偶然為之。我有幸從20年前Quadro開始時就接觸這個行業,每次專業顯卡換代時性能提升一個檔次幾乎被不斷重演着。既然A4000已經達到了之前5000系列的16GB顯存,與RTX 4000做性能對比已經沒什麼懸念,索性我就直接PK. RTX 5000試試。
有的朋友可能會問:在GeForce遊戲卡上,新一代140W功耗的30x0可能達不到上一代230W 20x0的性能?但專業顯卡除了驅動優化之外,有些型號硬件效率也較高一些。比如之前125W的RTX 4000,我的用戶在有些應用(如:VR)中發現能接近甚至略微超過GeForce RTX 2070(180W)的性能,這還不是傳統OpenGL的製造業3D設計。
RTX A4000的CUDA計算核心為6144個,看上去正好是上一代RTX 5000的2倍,RTX 4000就更不用說了。不過NVIDIA也特別註明了是Ampere架構的CUDA Cores。我在《NVIDIA Tensor Core對RTX顯卡光線追蹤的性能影響》中也介紹過這個“數字遊戲”背後的秘密。
由於GA104的白皮書還沒有出來,我仍然引用這張GA102白皮書中的GA10x StreamingMultiprocessor(SM)示意圖。由於Ampere架構的INT32整數單元也能改用於浮點,所以FP32單精度性能相當於翻倍了。而在INT32計算中可用的CUDA Cores,我理解實際上只有NVIDIA標稱的一半。
在有些計算測試中,GPU-Z看到的RTXA 4000 GPU Boost頻率比標稱的1560MHz還要高。不過每款顯卡都有TDP限制,像Tensor Core、RT Core還有顯存控制器這些也算髮熱大戶吧。我理解如果多幾個單元壓力同時跑上去,GPU時鐘/傳統CUDA算力就要犧牲一些來做取捨了。
之前我看到有人用AIDA64的GPGPU測試來驗證Ampere的單精度浮點性能,這次A4000測出的19508 GFLOPS確實與CUDA核心數對等。但不是所有應用/軟件都能把翻倍的CUDA核心用起來,如下圖說明:
這是以RTX 6000為例。在驅動支持CUDA 11 / 8.6計算架構設計的硬件上,如果運行CUDA 10或更早版本,會由於SM8.6未定義,而只用到每SM單元的64核。也就是INT32不能重定義為FP32來使用。
而當實際Runtime版本為CUDA 11.2時,RTX A6000的10752個CUDA核心就火力全開了,上圖顯示128 CUDA Cores X 84 Multiprocessors。
想發揮這一點,簡單地說應用程序需要用新版本CUDA重新編譯。對於使用現成商業或開源軟件的工作站用戶,就要看軟件或插件什麼時候提供支持了。在後面兩篇測試中,我也會盡量用新版本三維設計軟件來驗證一下。
SPECviewperf測試:RTX A4000為何在4K分辨率下更好?
終於到了測試環節,關於SPECviewperf 2020基準測試工具我去年已經有過介紹。這次使用最新的2.0版本,說是SolidWorks子測試項目有點更新,成績不適合與之前的版本直接對比。
本次使用的硬件平台是一款Dell支持PCIe 4.0的主機,配置11代Intel Core i7-11700 CPU,並沒有特別做性能調優。我使用2款顯卡,分別在1920x1080以及3840x2160的分辨率下運行了測試。
由於Quadro RTX 5000還是PCIe 3.0 x16的主機接口,在測試之前我曾猜測RTX A4000可能會因為PCIe 4.0而在較高分辨率下有些獲益。大家可以看看下面的測試結果。
首先是在1920x1080(HD)分辨率下,RTX A4000與RTX 5000性能大都比較接近、互有勝負。來自Siemens NX的snx-04一項測試,A4000領先的多一些。
snx-04測試還是由較早版本的Siemens PLM NX 8.0應用程序生成的圖形工作負載軌跡創建的,2個模型大小分別為715萬、845萬個頂點,我在4年前的《性能暴降62%?圖形工作站老司機踩坑記》測試中就介紹過。我們本次測試的2款顯卡跑這個有點大材小用的感覺,所以幀速度達到400 FPS以上。
3840x2160(4K)分辨率下,我看到RTX A4000在大多數測試項目中處於小幅領先,其中maya-06的差距最大。不過也有點意外,前面1920x1080分辨率下相比RTX 5000的優勢又被追回去了。
上面是我在4K測試中的實際截圖,不知從這裡點開是否還能放那麼大。maya-06視圖集是根據Autodesk Maya 2017應用程序生成的圖形工作負載的軌跡創建的,感覺也有點老了,場景不夠複雜所以能跑到200 FPS左右。
SPECviewperf測試集具有一定的全面性,它包含了CAD/AEC/DCC、工程製造/建築/媒體娛樂/能源/生物醫療行業中的3D設計或重建場景,RTX A4000專業顯卡在這一輪初步達到了Quadro RTX 5000同級性能水平。
而對於一名接觸工作站的老鳥來說,SPECviewperf只能算一個初步的摸底,我還要跑更多的實際應用軟件來測試。圖形工作站的一個特點是:三維軟件的編輯模式通常是單線程,有些情況下CPU單核性能會成為瓶頸而不是顯卡。除了顯示加速之外,還有另一個重要的方向——GPU計算/渲染性能需要評估,也就是CUDA、Tensor/RT光線追蹤這些方面了。
未完待續:)
註:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術乾貨,也歡迎聯繫我:)
尊重知識,轉載時請保留全文。感謝您的閱讀和支持!