PCIe 4.0提升幾何？NVIDIA RTX A4000專業顯卡測試(1)

分類：數碼

瀏覽數：1892

2021-09-12

- 渦輪風扇+雙側進風：單槽顯卡散熱上的改進

- 規格篇：如何把Ampere多一倍的CUDA Core用起來

- SPECviewperf測試：RTX A4000為何在4K分辨率下更好？

今年初我做過PCIe 4.0 SSD的測試。在大多數情況下，由於顯卡以前就是工作在PCIe 3.0 x16帶寬下，所以4.0的效果可能不是那麼明顯。比如我看到在有些針對發燒級用戶的外星人筆記本上，只把PCIe 4.0 x8分配給顯卡用，這應該是為了給高速SSD留出更大空間。簡單說，顯卡在PCIe 4.0的性能加成還是應用相關的，具體到專業顯卡，還是要跑工作站上的圖形應用來看看。

在上一篇《暗藏Win7支持？NVIDIA RTX A4000專業顯卡另類測試》之後，性能評估我拖的有點久。

其實在每次NVIDIA發布新的工作站顯卡時，都會有一些官方宣傳的性能提升，比如A4000比上一代的Quadro RTX 4000，乃至上上代P4000快了多少。但這個數往往只是概括的比例，即使提到有的應用軟件，你也不知他具體做的哪個操作？用了什麼樣的模型/場景？顯示幀率提高了多少FPS、渲染時間縮短多少秒之類。這就是我自己要實際測試一下的原因。

我第一次在PCIe 4.0平台上的顯卡測試。上圖中RTX A4000的具體規格，我會在下文中對比分析。

此次我初步規划了3-4篇。如果只是把測試跑完，我發現還花不了太多時間和精力，但每次整理成文分享給大家，多少會有點“煎熬”的過程。

- SPECviewperf 2020v2.0摸底測試，HD和4K分辨率（本文）

- SolidWorks 2021應用測試，含Visualize渲染；

- 更多光線追蹤、渲染測試（Blender、V-Ray、KeyShot、OctaneBench）…

在每次測試之前，我也會依據已有參數憑經驗先來一個預估，當然測試結果未必都是符合的（這也正是測試有意思的地方）。另外我也會着重於驗證新顯卡在圖形、CUDA計算/RTX渲染等方面的性能特點，設計、散熱上有哪些需要注意的地方。

渦輪風扇+雙側進風：單槽顯卡散熱上的改進

上一次測Ampere架構顯卡，還是去年的《RTX3090初測：雙寬渦輪風扇設計，訣竅與“煩惱”》。大家還記得公版GeForce RTX 3080/3090那樣的“穿透式”風扇設計嗎？這次的RTX A4000專業顯卡則是結合了渦輪和雙側鏤空2種特點的散熱器，大家想到價值在哪裡了嗎？

由於4000系列這個級別的專業顯卡保持PCIe單插槽寬度，當上一代RTX 4000加入光追之後發熱量就有些大了，滿載時風扇有點吵，也聽到有的用戶反映過溫度偏高。

我並不懷疑Quadro專業顯卡在正常環境溫度下的穩定性，但RTX 4000板卡本身的TDP（熱設計功耗）是125W，A4000又提高到140W，仍然是單槽空間，散熱設計改進勢在必行。

以往的渦輪風扇（包括Turbo版RTX 3090那些雙槽的）都是只能從顯卡正面一側進風，而此次A4000可以從背面同時吸入空氣，這樣在多卡高密度環境下的好處更明顯——因為以前往往是最上面的卡溫度更高。

顯卡背面能看出來的，主要是保持AmpereGA10x這一代較小的板卡尺寸，16GBGDDR6顯存都放在PCB的正面。

RTX A4000在散熱出風口位置的開孔率比之前有提高（對比下圖中的RTX4000）。不過畢竟是單槽顯卡，不可能達到渦輪版RTX3090那樣鏤空面積，畢竟後者是350W功耗。

上圖為Quadro RTX 4000，在PCIe I/O擋片上的小圓孔看着確實沒有新一代A4000的散熱排氣效果好。

由於上一代RTX4000顯卡設計了一個VirtualLink Type-C接口，可以給VR頭盔等外設供電，所以功耗可達160W，不得不使用8-pin PCIe供電。A4000老老實實退回4個DP輸出，不超過150W所以設計6-pin供電就ok了。

RTX A4000專業顯卡上保持STEREO 3D Vision立體眼鏡接口（通過一個轉3pin miniDIN的配件），以及連接G-Sync同步子卡的接口。這裡的G-Sync是為了保持多張顯卡、乃至多台主機輸出之間的同步刷新相位，在大屏拼接，特別是立體投影和VR這樣的場合很重要。（擴展閱讀：《NVIDIA Quadro 20周年記：專業顯卡的前生今世》）

感謝之前有同行朋友對RTX A4000做了拆解，在上一篇Win7驅動測試中我已經借用過一張照片，這裡再借用一張：）我對顯卡拆解的興趣沒有年輕時那麼大了，因為長得是否好看，都不如實際應用性能重要。

規格篇：如何把Ampere多一倍的CUDA Core用起來

以上規格都來自於NVIDIA官方文檔，以及在驅動控制面板里就能看到的頻率。

從Quadro M4000開始，一直到P4000、RTX 4000都是8GB顯存，如今A4000終於提升到16GB，要不面對GeForceRTX 3060 12GB也有點太沒面子了：）關於ECC內存校驗支持，我在上一篇中已經實測過了。

RTX A4000和上一代QuadroRTX 5000的顯存帶寬同為448GB/s，這顯然不是偶然為之。我有幸從20年前Quadro開始時就接觸這個行業，每次專業顯卡換代時性能提升一個檔次幾乎被不斷重演着。既然A4000已經達到了之前5000系列的16GB顯存，與RTX 4000做性能對比已經沒什麼懸念，索性我就直接PK. RTX 5000試試。

有的朋友可能會問：在GeForce遊戲卡上，新一代140W功耗的30x0可能達不到上一代230W 20x0的性能？但專業顯卡除了驅動優化之外，有些型號硬件效率也較高一些。比如之前125W的RTX 4000，我的用戶在有些應用（如：VR）中發現能接近甚至略微超過GeForce RTX 2070（180W）的性能，這還不是傳統OpenGL的製造業3D設計。

RTX A4000的CUDA計算核心為6144個，看上去正好是上一代RTX 5000的2倍，RTX 4000就更不用說了。不過NVIDIA也特別註明了是Ampere架構的CUDA Cores。我在《NVIDIA Tensor Core對RTX顯卡光線追蹤的性能影響》中也介紹過這個“數字遊戲”背後的秘密。

由於GA104的白皮書還沒有出來，我仍然引用這張GA102白皮書中的GA10x StreamingMultiprocessor(SM)示意圖。由於Ampere架構的INT32整數單元也能改用於浮點，所以FP32單精度性能相當於翻倍了。而在INT32計算中可用的CUDA Cores，我理解實際上只有NVIDIA標稱的一半。

在有些計算測試中，GPU-Z看到的RTXA 4000 GPU Boost頻率比標稱的1560MHz還要高。不過每款顯卡都有TDP限制，像Tensor Core、RT Core還有顯存控制器這些也算髮熱大戶吧。我理解如果多幾個單元壓力同時跑上去，GPU時鐘/傳統CUDA算力就要犧牲一些來做取捨了。

之前我看到有人用AIDA64的GPGPU測試來驗證Ampere的單精度浮點性能，這次A4000測出的19508 GFLOPS確實與CUDA核心數對等。但不是所有應用/軟件都能把翻倍的CUDA核心用起來，如下圖說明：

這是以RTX 6000為例。在驅動支持CUDA 11 / 8.6計算架構設計的硬件上，如果運行CUDA 10或更早版本，會由於SM8.6未定義，而只用到每SM單元的64核。也就是INT32不能重定義為FP32來使用。

而當實際Runtime版本為CUDA 11.2時，RTX A6000的10752個CUDA核心就火力全開了，上圖顯示128 CUDA Cores X 84 Multiprocessors。

想發揮這一點，簡單地說應用程序需要用新版本CUDA重新編譯。對於使用現成商業或開源軟件的工作站用戶，就要看軟件或插件什麼時候提供支持了。在後面兩篇測試中，我也會盡量用新版本三維設計軟件來驗證一下。

SPECviewperf測試：RTX A4000為何在4K分辨率下更好？

終於到了測試環節，關於SPECviewperf 2020基準測試工具我去年已經有過介紹。這次使用最新的2.0版本，說是SolidWorks子測試項目有點更新，成績不適合與之前的版本直接對比。

本次使用的硬件平台是一款Dell支持PCIe 4.0的主機，配置11代Intel Core i7-11700 CPU，並沒有特別做性能調優。我使用2款顯卡，分別在1920x1080以及3840x2160的分辨率下運行了測試。

由於Quadro RTX 5000還是PCIe 3.0 x16的主機接口，在測試之前我曾猜測RTX A4000可能會因為PCIe 4.0而在較高分辨率下有些獲益。大家可以看看下面的測試結果。

首先是在1920x1080（HD）分辨率下，RTX A4000與RTX 5000性能大都比較接近、互有勝負。來自Siemens NX的snx-04一項測試，A4000領先的多一些。

snx-04測試還是由較早版本的Siemens PLM NX 8.0應用程序生成的圖形工作負載軌跡創建的，2個模型大小分別為715萬、845萬個頂點，我在4年前的《性能暴降62%？圖形工作站老司機踩坑記》測試中就介紹過。我們本次測試的2款顯卡跑這個有點大材小用的感覺，所以幀速度達到400 FPS以上。

3840x2160（4K）分辨率下，我看到RTX A4000在大多數測試項目中處於小幅領先，其中maya-06的差距最大。不過也有點意外，前面1920x1080分辨率下相比RTX 5000的優勢又被追回去了。

上面是我在4K測試中的實際截圖，不知從這裡點開是否還能放那麼大。maya-06視圖集是根據Autodesk Maya 2017應用程序生成的圖形工作負載的軌跡創建的，感覺也有點老了，場景不夠複雜所以能跑到200 FPS左右。

SPECviewperf測試集具有一定的全面性，它包含了CAD/AEC/DCC、工程製造/建築/媒體娛樂/能源/生物醫療行業中的3D設計或重建場景，RTX A4000專業顯卡在這一輪初步達到了Quadro RTX 5000同級性能水平。

而對於一名接觸工作站的老鳥來說，SPECviewperf只能算一個初步的摸底，我還要跑更多的實際應用軟件來測試。圖形工作站的一個特點是：三維軟件的編輯模式通常是單線程，有些情況下CPU單核性能會成為瓶頸而不是顯卡。除了顯示加速之外，還有另一個重要的方向——GPU計算/渲染性能需要評估，也就是CUDA、Tensor/RT光線追蹤這些方面了。

未完待續：）

註：本文只代表作者個人觀點，與任何組織機構無關，如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術乾貨，也歡迎聯繫我：）

尊重知識，轉載時請保留全文。感謝您的閱讀和支持！

數碼分類資訊推薦