PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1)

2021年09月12日12:35:02 數碼 1892

目錄

- 渦輪風扇+雙側進風:單槽顯卡散熱上的改進

- 規格篇:如何把Ampere多一倍的CUDA Core用起來

- SPECviewperf測試:RTX A4000為何在4K解析度下更好?


今年初我做過PCIe 4.0 SSD的測試。在大多數情況下,由於顯卡以前就是工作在PCIe 3.0 x16帶寬下,所以4.0的效果可能不是那麼明顯。比如我看到在有些針對發燒級用戶的外星人筆記本上,只把PCIe 4.0 x8分配給顯卡用,這應該是為了給高速SSD留出更大空間。簡單說,顯卡在PCIe 4.0的性能加成還是應用相關的,具體到專業顯卡,還是要跑工作站上的圖形應用來看看。

在上一篇《暗藏Win7支持?NVIDIA RTX A4000專業顯卡另類測試》之後,性能評估我拖的有點久。

其實在每次NVIDIA發布新的工作站顯卡時,都會有一些官方宣傳的性能提升,比如A4000比上一代的Quadro RTX 4000,乃至上上代P4000快了多少。但這個數往往只是概括的比例,即使提到有的應用軟體,你也不知他具體做的哪個操作?用了什麼樣的模型/場景?顯示幀率提高了多少FPS、渲染時間縮短多少秒之類。這就是我自己要實際測試一下的原因。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

我第一次在PCIe 4.0平台上的顯卡測試。上圖中RTX A4000的具體規格,我會在下文中對比分析。

此次我初步規划了3-4篇。如果只是把測試跑完,我發現還花不了太多時間和精力,但每次整理成文分享給大家,多少會有點「煎熬」的過程。

- SPECviewperf 2020v2.0摸底測試,HD和4K解析度(本文)

- SolidWorks 2021應用測試,含Visualize渲染;

- 更多光線追蹤、渲染測試(Blender、V-Ray、KeyShot、OctaneBench)…

在每次測試之前,我也會依據已有參數憑經驗先來一個預估,當然測試結果未必都是符合的(這也正是測試有意思的地方)。另外我也會著重於驗證新顯卡在圖形、CUDA計算/RTX渲染等方面的性能特點,設計、散熱上有哪些需要注意的地方

渦輪風扇+雙側進風:單槽顯卡散熱上的改進

上一次測Ampere架構顯卡,還是去年的《RTX3090初測:雙寬渦輪風扇設計,訣竅與「煩惱」》。大家還記得公版GeForce RTX 3080/3090那樣的「穿透式」風扇設計嗎?這次的RTX A4000專業顯卡則是結合了渦輪和雙側鏤空2種特點的散熱器,大家想到價值在哪裡了嗎?

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

由於4000系列這個級別的專業顯卡保持PCIe單插槽寬度,當上一代RTX 4000加入光追之後發熱量就有些大了,滿載時風扇有點吵,也聽到有的用戶反映過溫度偏高。

我並不懷疑Quadro專業顯卡在正常環境溫度下的穩定性,但RTX 4000板卡本身的TDP(熱設計功耗)是125W,A4000又提高到140W,仍然是單槽空間,散熱設計改進勢在必行。

以往的渦輪風扇(包括Turbo版RTX 3090那些雙槽的)都是只能從顯卡正面一側進風,而此次A4000可以從背面同時吸入空氣,這樣在多卡高密度環境下的好處更明顯——因為以前往往是最上面的卡溫度更高。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

顯卡背面能看出來的,主要是保持AmpereGA10x這一代較小的板卡尺寸,16GBGDDR6顯存都放在PCB的正面。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

RTX A4000在散熱出風口位置的開孔率比之前有提高(對比下圖中的RTX4000)。不過畢竟是單槽顯卡,不可能達到渦輪版RTX3090那樣鏤空面積,畢竟後者是350W功耗。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

上圖為Quadro RTX 4000,在PCIe I/O擋片上的小圓孔看著確實沒有新一代A4000的散熱排氣效果好。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

由於上一代RTX4000顯卡設計了一個VirtualLink Type-C介面,可以給VR頭盔等外設供電,所以功耗可達160W,不得不使用8-pin PCIe供電。A4000老老實實退回4個DP輸出,不超過150W所以設計6-pin供電就ok了。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

RTX A4000專業顯卡上保持STEREO 3D Vision立體眼鏡介面(通過一個轉3pin miniDIN的配件),以及連接G-Sync同步子卡的介面。這裡的G-Sync是為了保持多張顯卡、乃至多台主機輸出之間的同步刷新相位,在大屏拼接,特別是立體投影和VR這樣的場合很重要。(擴展閱讀:《NVIDIA Quadro 20周年記:專業顯卡的前生今世》)

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

感謝之前有同行朋友對RTX A4000做了拆解,在上一篇Win7驅動測試中我已經借用過一張照片,這裡再借用一張:)我對顯卡拆解的興趣沒有年輕時那麼大了,因為長得是否好看,都不如實際應用性能重要。

規格篇:如何把Ampere多一倍的CUDA Core用起來

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

以上規格都來自於NVIDIA官方文檔,以及在驅動控制面板里就能看到的頻率。

從Quadro M4000開始,一直到P4000、RTX 4000都是8GB顯存,如今A4000終於提升到16GB,要不面對GeForceRTX 3060 12GB也有點太沒面子了:)關於ECC內存校驗支持,我在上一篇中已經實測過了。

RTX A4000和上一代QuadroRTX 5000的顯存帶寬同為448GB/s,這顯然不是偶然為之。我有幸從20年前Quadro開始時就接觸這個行業,每次專業顯卡換代時性能提升一個檔次幾乎被不斷重演著。既然A4000已經達到了之前5000系列的16GB顯存,與RTX 4000做性能對比已經沒什麼懸念,索性我就直接PK. RTX 5000試試。

有的朋友可能會問:在GeForce遊戲卡上,新一代140W功耗的30x0可能達不到上一代230W 20x0的性能?但專業顯卡除了驅動優化之外,有些型號硬體效率也較高一些。比如之前125W的RTX 4000,我的用戶在有些應用(如:VR)中發現能接近甚至略微超過GeForce RTX 2070(180W)的性能,這還不是傳統OpenGL的製造業3D設計。

RTX A4000的CUDA計算核心為6144個,看上去正好是上一代RTX 5000的2倍,RTX 4000就更不用說了。不過NVIDIA也特別註明了是Ampere架構的CUDA Cores。我在《NVIDIA Tensor Core對RTX顯卡光線追蹤的性能影響》中也介紹過這個「數字遊戲」背後的秘密。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

由於GA104的白皮書還沒有出來,我仍然引用這張GA102白皮書中的GA10x StreamingMultiprocessor(SM)示意圖。由於Ampere架構的INT32整數單元也能改用於浮點,所以FP32單精度性能相當於翻倍了。而在INT32計算中可用的CUDA Cores,我理解實際上只有NVIDIA標稱的一半。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

在有些計算測試中,GPU-Z看到的RTXA 4000 GPU Boost頻率比標稱的1560MHz還要高。不過每款顯卡都有TDP限制,像Tensor Core、RT Core還有顯存控制器這些也算髮熱大戶吧。我理解如果多幾個單元壓力同時跑上去,GPU時鐘/傳統CUDA算力就要犧牲一些來做取捨了。

之前我看到有人用AIDA64的GPGPU測試來驗證Ampere的單精度浮點性能,這次A4000測出的19508 GFLOPS確實與CUDA核心數對等。但不是所有應用/軟體都能把翻倍的CUDA核心用起來,如下圖說明:

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

這是以RTX 6000為例。在驅動支持CUDA 11 / 8.6計算架構設計的硬體上,如果運行CUDA 10或更早版本,會由於SM8.6未定義,而只用到每SM單元的64核。也就是INT32不能重定義為FP32來使用。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

而當實際Runtime版本為CUDA 11.2時,RTX A6000的10752個CUDA核心就火力全開了,上圖顯示128 CUDA Cores X 84 Multiprocessors

想發揮這一點,簡單地說應用程序需要用新版本CUDA重新編譯。對於使用現成商業或開源軟體的工作站用戶,就要看軟體或插件什麼時候提供支持了。在後面兩篇測試中,我也會盡量用新版本三維設計軟體來驗證一下。

SPECviewperf測試:RTX A4000為何在4K解析度下更好?

終於到了測試環節,關於SPECviewperf 2020基準測試工具我去年已經有過介紹。這次使用最新的2.0版本,說是SolidWorks子測試項目有點更新,成績不適合與之前的版本直接對比。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

本次使用的硬體平台是一款Dell支持PCIe 4.0的主機,配置11代Intel Core i7-11700 CPU,並沒有特別做性能調優。我使用2款顯卡,分別在1920x1080以及3840x2160的解析度下運行了測試。

由於Quadro RTX 5000還是PCIe 3.0 x16的主機介面,在測試之前我曾猜測RTX A4000可能會因為PCIe 4.0而在較高解析度下有些獲益。大家可以看看下面的測試結果。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

首先是在1920x1080(HD)解析度下,RTX A4000與RTX 5000性能大都比較接近、互有勝負。來自Siemens NX的snx-04一項測試,A4000領先的多一些。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

snx-04測試還是由較早版本的Siemens PLM NX 8.0應用程序生成的圖形工作負載軌跡創建的,2個模型大小分別為715萬、845萬個頂點,我在4年前的《性能暴降62%?圖形工作站老司機踩坑記》測試中就介紹過。我們本次測試的2款顯卡跑這個有點大材小用的感覺,所以幀速度達到400 FPS以上。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

3840x2160(4K)解析度下,我看到RTX A4000在大多數測試項目中處於小幅領先,其中maya-06的差距最大。不過也有點意外,前面1920x1080解析度下相比RTX 5000的優勢又被追回去了。

PCIe 4.0提升幾何?NVIDIA RTX A4000專業顯卡測試(1) - 天天要聞

上面是我在4K測試中的實際截圖,不知從這裡點開是否還能放那麼大。maya-06視圖集是根據Autodesk Maya 2017應用程序生成的圖形工作負載的軌跡創建的,感覺也有點老了,場景不夠複雜所以能跑到200 FPS左右。

SPECviewperf測試集具有一定的全面性,它包含了CAD/AEC/DCC、工程製造/建築/媒體娛樂/能源/生物醫療行業中的3D設計或重建場景,RTX A4000專業顯卡在這一輪初步達到了Quadro RTX 5000同級性能水平。

而對於一名接觸工作站的老鳥來說,SPECviewperf只能算一個初步的摸底,我還要跑更多的實際應用軟體來測試。圖形工作站的一個特點是:三維軟體的編輯模式通常是單線程,有些情況下CPU單核性能會成為瓶頸而不是顯卡。除了顯示加速之外,還有另一個重要的方向——GPU計算/渲染性能需要評估,也就是CUDA、Tensor/RT光線追蹤這些方面了。

未完待續:)


註:本文只代表作者個人觀點,與任何組織機構無關,如有錯誤和不足之處歡迎在留言中批評指正。如果您想在這個公眾號上分享自己的技術乾貨,也歡迎聯繫我:)

尊重知識,轉載時請保留全文。感謝您的閱讀和支持!

數碼分類資訊推薦

iQOO Neo9s Pro+配置曝光:1.5K+144Hz直屏、驍龍8Gen3 - 天天要聞

iQOO Neo9s Pro+配置曝光:1.5K+144Hz直屏、驍龍8Gen3

不久前,數碼博主@數碼閑聊站 透露,iQOO將推出搭載驍龍8 Gen3處理器的iQOO Neo9S Pro+。該博主今日的一份爆料中提到了這款新機的更多配置信息。按照爆料中的說法來看,iQOO Neo9S Pro+目前採用了一塊6.78英寸
5K壁紙:望山河 - 天天要聞

5K壁紙:望山河

5K壁紙感謝大家一直以來的支持和關註:5K壁紙感謝大家一直以來的支持和關註:在這組手機壁紙上,海天一色的美景與萬里長城、布達拉宮交相輝映,構成了一幅壯麗的畫面。大海與天空融為一體,呈現出無盡的藍色,給人一種廣闊而寧靜的感覺。
5K壁紙;宇宙之光。 - 天天要聞

5K壁紙;宇宙之光。

5K壁紙感謝大家一直以來的支持和關註:5K壁紙感謝大家一直以來的支持和關註:《宇宙之光》在這些浩瀚無垠的宇宙中多彩的光手機壁紙上,彷彿置身於無盡的宇宙之中,被多彩的光芒所包圍。
5K壁紙:緋紅女巫 奧美。 - 天天要聞

5K壁紙:緋紅女巫 奧美。

這些手機壁紙展現了一位奧美女平時生活中的瞬間,捕捉到了她自然而真實的一面。不知用什麼形容詞來形容奧美,落落大方,氣質優雅,還是 古靈精怪。
國內有NVIDIA定製AI晶元,為啥沒有AMD的?性能太強不準賣 - 天天要聞

國內有NVIDIA定製AI晶元,為啥沒有AMD的?性能太強不準賣

在這個科技飛速發展的時代,人工智慧已經不再是遙不可及的未來科技,而是正在悄然改變我們的生活。作為AI領域的佼佼者,NVIDIA可謂是當之無愧的領頭羊。近日,這家矽谷科技巨頭推出了一款名為Grace的定製AI晶元,其性能實在是太強大了,簡直就是AI加速器中的"鑽石王老五"!
單潛望和雙潛望,vivo X100 Ultra還是OPPO Find X7 Ultra? - 天天要聞

單潛望和雙潛望,vivo X100 Ultra還是OPPO Find X7 Ultra?

手機攝像頭的重要性,可以說是不言而喻的。在這個視覺化時代,一款出色的手機相機不僅能讓我們隨時記錄生活點滴,更能捕捉那些稍縱即逝的精彩瞬間。而在手機攝像頭中,潛望鏡頭則扮演著至關重要的角色,它賦予了手機超強的變焦能力,讓我們對遠處的風景大物件了如指掌。