稿源:中關村在線
RTX 40系顯卡第一款解禁的顯卡已經與我們見面,超旗艦的「90」級別產品性能也讓大家過足了癮。今天則為大家帶來了七彩虹iGame GeForce RTX 4090 Vulcan OC的非公版顯卡首測。
此次RTX 40系列解禁的順序有些耐人尋味,「90」級別的產品雖然會在第一批公布,但通常代表着遊戲旗艦的「80」顯卡會打頭陣。
其實根據目前的情況來看,RTX 4090的率先推出,RTX 3090及「Ti」的停產,都是為了照顧仍在市售的RTX 30系產品。
當然,這次NVIDIA對於RTX 4090的性能表現同樣非常期待,並且提供了大量用於DLSS 3測試的遊戲。
iGame GeForce RTX 4090 Vulcan OC
本次RTX 4090的市售時間與性能解禁時間相同,也就是說大家看到首測的時候已經可以開始搶卡了。七彩虹共發佈了RTX 4090三個型號,分別為七彩虹iGame火神超頻版、iGame水神超頻版以及原價的七彩虹戰斧豪華版,有興趣的玩家可以關注一下。
01 iGame GeForce RTX 4090 Vulcan OC概覽
近幾代顯卡,其實每一次iGame的設計理念都比較有意思,以我們這次測試的Vulcan系列來說。在RTX 30系中,它一改以往甲胄式設計,將賽博朋克元素,這種極具未來科技感的風格融入到了顯卡中,外甲線條張力十足,稜角分明。
賽博朋克時代
而在此次RTX 40系顯卡中,Vulcan系列雖然延續了賽博朋克風格,但整體設計卻給人一種現實與幻想碰撞的感覺——這就是後賽博時代。
關於賽博朋克的概念,想必大家都已熟知。「高科技、低生活」可以很好地概括賽博朋克世界中的人們。霓虹閃爍的夜空下,潮濕的路面變成了反光源,襯托出都市畸形的繁華,整個城市充滿故障和錯位感。
後賽博時代
而後賽博時代雖然依然繼承了「高科技、低生活」的基本格局,但對「高科技」的看法更為現實,對「低生活」的態度更為樂觀。比起憤怒,更多是苦中作樂。
後賽博時代最明顯的特徵便是少了許多強烈碰撞的色彩,取而代之的是以黑白灰為主,少量彩色光源點綴的躺平生活。
有意思的是,賽博時代更多的是對賽博朋克的戲仿和自嘲。
日前比較火的遊戲《Stray》,其實就是對後賽博時代最好的詮釋。生活的居民從沒有見過真正的藍天,對自然的嚮往只停留在百年前殘存的畫片中。
《Stray》
當人類正在享受科技帶來的巨大便利時,地球的氣候環境早已不再適合人類居住。人類為了躲避瘟疫建立了一個地下堡壘,堡壘中由上到下分別為頂層,中城區,蟻村,死城。
同時因為地下堡壘的封閉性,無法照射到太陽,人們只能依靠虛擬現實世界來躲避現實。
本次iGame火神系列在外觀上最大升級其實有兩點,外甲和屏幕。
正如之前所說,本代火神顯卡顯得更為現實,是那種鋼筋混凝土構築起堡壘的「現實」,整體色調採用黑白灰,恰如人們最堅實的依賴。
而幻想,則是本次火神升級的「智屏」,不再局限於翻折,而使用USB線連接至電腦,可擺放在任意位置。這極其類似賽博朋克時代隨處可見的屏幕。
首先來看一下本次iGame GeForce RTX 4090 Vulcan OC的配件,兩塊屏幕位於最左側,而智屏更是貼心的保護起來,避免表面劃傷影響觀賞效果。除此之外還有金屬顯卡支架以及螺絲刀。
另外則是必不可少16pin轉8pin*4的電源轉接線、燈光同步線&素材上傳線以及智屏的可磁吸底座。
本次雖然公版RTX 4090的建議電源與RTX 3090 Ti相同,都是850W。但超頻版的顯卡加上CPU等對電源有要求的設備。官方建議的1000W電源更加穩妥,所以大家還是看看能否兼容。
另外本次iGame還推出了有意思的周邊,iGame奇趣主機拼奇積木。別看只是一款主機造型的小擺件,但其難度不亞於小街景的製作,對於動手感興趣的玩家不妨了解一下。
iGame GeForce RTX 4090 Vulcan OC整卡的尺寸為348.5×159.5×70.4mm,這張卡的尺寸相較我們評測過的其他AIC RTX 4090來說,還算是比較小的,尤其是長度方面。但即便這樣,這張RTX 4090也依然是巨無霸一般的存在,相較於以前的iGame家的顯卡來說還從未有過的尺寸。
iGame GeForce RTX 4090 Vulcan OC外甲的設計雖然整體以深灰色「混凝土」風格為主,但依然能看出其中的金屬元素,彷彿是堅固堡壘中,保護人類的最後防線。
散熱方面,本次iGame GeForce RTX 4090 Vulcan OC整體採用了旋渦(Vortex)散熱器,三個104mm的大直徑風扇作為主動散熱,創新的「聚風鐮環」扇葉是本次改進的關鍵,升級加固的葉片環環相連,能提供最大程度的散熱效果。
在內部散熱模組上,iGame GeForce RTX 4090 Vulcan OC採用導流型鰭片,9根8mm的熱管配置堪稱豪華,「迴流焊」工藝使熱管與鰭片貼合更緊密,優化散熱效能。
真空冰片技術
而內部採用了真空冰片技術,超扁平的密閉腔體內充冷凝液,吸收熱量後通過相變原理散發熱量,真空密閉腔體與熱管及鰭片合為整體,散熱效能更好。
視頻輸出接口上,iGame GeForce RTX 4090 Vulcan OC採用了與公版相同的HDMI 2.1 + DP 1.4a*3的四接口設計。
至於呼聲較高的DP 2.0,其實目前絕大部分消費級遊戲顯示器都沒有實裝,且DP 1.4a標準也能夠支持8K 60Hz刷新率的顯示器。所以,綜合來看,絕對夠用。
作為七彩虹標誌性的一鍵超頻按鈕,在RTX 40系中自然也得到了傳承,良好的機械反饋手感加上點亮後的冰藍色燈光,儀式感十足。
16pin輔助供電左側為素材上傳&燈光同步接口
本次iGame GeForce RTX 4090 Vulcan OC的TDP官方給出的為550W/515W,搭載單16pin輔助供電。公版顯卡的內部供電為20+3相;而iGame這張顯卡為24+4相,並且頻率也要更高,所以建議的1000W電源,確實並不過分。
目前已有部分電源廠商發佈了最新的ATX 3.0標準高端電源,自帶12VHPWR的16pin供電接口,單口最高可支持600W供電。所以不出意外的話,或許下一代顯卡也將採用這樣的單16pin來供電。
雖然目前所有顯卡廠商基本都會附贈一根轉接線,不過8pin*4的雜亂程度可想而知,有條件的話,一個ATX 3.0標準的電源簡直不要太整潔。
需要注意的是,目前適用於RTX 30系列的12pin接口和電源轉接器與RTX 40系列顯卡不兼容。
另外在RTX 40系顯卡中,將不再支持NVLink,所以想要重現往日的四路泰坦是不可能了。
再來看一下背板,從右側鏤空的背板能看到大量散熱鰭片以及熱管,這款iGame GeForce RTX 4090 Vulcan OC同樣採用了較短的PCB板,以滿足散熱鰭片的整體散熱效果。
02 智屏及iGame Center軟件
本次隨着RTX 40系顯卡的發佈,iGame Center軟件也迎來了升級,全新的2022版界面排布更整潔。
在軟件首頁會顯示所有的硬件信息,並且非常詳盡,比如顯卡的CUDA數量以及顯存,都能夠清晰看到。
在硬件控制中,主要可以調節燈光系統,可全局調控也可單獨調控。選擇上邊的單獨調控是我們本次設置智屏的重點。
本次中默認的燈光效果其實都非常好看,尤其是GPU和CPU專註的參數顯示,非常具有賽博朋克的感覺。
在自定義圖片中,玩家可以手動上傳自製圖片。同時由於屏幕的升級,分辨率由上代的480×128px 提升為 800×216px,更具視覺衝擊力。
在顯卡側面,可以看到原本RTX 30系翻轉屏的位置,改為了觸點式磁吸的設計,可吸附iGame Vulcan燈控組件或者橫置、豎置的智屏。
由於智屏的升級,可搭載底座放置於機箱外部,這個位置空着當然不行,所以當智屏不在顯卡上時,這個iGame Vulcan的燈控組件可以直接吸附在上面。不過有一點,這個燈控組件不兼容底座。
iGame Vulcan智屏的底部及背部都擁有磁吸觸點,並且「即吸即用」非常方便。
外接底座的好處就是可以放在任何桌面擺件上,並且升級後高清的分辨率顯示效果也更好。常規的圖片上傳沒什麼衝擊力,下面筆者上傳了一段NVIDIA Racer RTX的視頻。
不過需要注意的是,上傳素材過大最好使用顯卡內附帶的素材上傳線,否則等待時間會比較長。
03 Ada Lovelace 是誰?
下面我們來看一下此次推出NVIDIA Ada Lovelace架構,我們先從Ada Lovelace這個人講起,相較於Ampere,這位似乎大家更陌生一些。
Ada Lovelace(1815-1852)是英國數學家、計算機程序創始人,建立了循環和子程序概念,被稱為世界上第一位程序員。
Ada從小對數學有極高天賦,其父稱她為「平行四邊形公主」,後來的合作夥伴Charles Babbage稱她為「數字女巫」。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚後的她對數學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多註記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一位程序員。
而以她名字命名的語言——ada語言,已經成為了美國軍方開發戰鬥機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被後人銘記。
這也是為什麼此次NVIDIA RTX 40的先行宣傳中,用到了「以未來敬傳奇」的slogan,下面我們詳細剖析一下,這次的Ada Lovelace還有哪些創新和超越。
04 NVIDIA Ada Lovelace架構
本次發佈的GeForce RTX 40系顯卡由全新的NVIDIA Ada Lovelace架構打造,採用TSMC 4nm定製工藝(TSMC 4 nm NVIDIA Custom Process),旗艦核心AD102達到了恐怖的760億個晶體管,而在RTX 30系顯卡中為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升。最高可達到90-TFLOPS的着色器數據吞吐量,而本次發佈的GeForce RTX 4090則達到83-TFLOPs,相比上一代NVIDIA Ampere則只有40-TFOPs。
完整的AD102核心共有18432個CUDA,其中包含12個圖形處理集群(GPCs), 72個紋理處理集群(TPCs), 144個流式多處理器(SMs)。144個第三代光追核心(RT cores)、576個第四代張量核心(Tensor Cores)。另外可以看到Boost頻率也從1.9GHz猛增到了2.5GHz。
另外一點在架構圖上沒有體現的是,AD102核心還包含288個FP64雙精度浮點核心(每SM 2個),用來確保FP64代碼正確處理,包括FP64張量核心代碼。
通常來講,單精度浮點運算會用於深度學習模型訓練,而雙精度浮點運算則用於數值模擬工作。通常遊戲卡都會砍掉FP64,這既節省了成本,又對遊戲本身沒有影響。而專業卡都保留有FP64,目的就是為了精度更高訓練與計算。
此次資料中只提到了AD102核心搭載了288個FP64,尚不知道後續的推出的產品有無變更。
了解了完整的GA102核心,我們再來看一下RTX 4090的核心,其實知道了RTX 4090的參數,我們大概也能了解到後續可能推出的「Ti」系列究竟相差在哪。
相比完整的GA102來說,RTX 4090共有16384個CUDA,其中包含11個GPC、64個TPC以及128個SM單元,第三代RT Cores為128個,第四代Tensor Cores為512個。
其實根據完整的架構圖就能看出,此次Ada架構整體結構性的改動並不大,這一點從SM單元便能清晰印證,同樣的FP32 CUDA核心,同樣的FP32/INT32混合CUDA核心,同樣的L1級緩存等等。當然,每個SM單元內部的Tensor Core升級為第四代。
不過變化最為顯著的,則是第三代光追核心,我們結合兩代架構來看。在第二代光追核心中,包含負責邊界交叉測試的Box Intersection Engine引擎,和負責三角形交叉測試的Triangle Intersection Engine引擎。
而在第三代光追核心中,還增加了兩個新的引擎:Opacity Micro-Map Engines(OMM)和Displaced Micro-Mesh Engines(DMM),這兩個新的硬件單元可以極大地提升光追性能(具體原理後文詳細介紹)。
至此,每2個SM單元組成一個TPC單元,每6組TPC單元組成一個完整的GPC頂層單元(在部分核心中,會出現5組TPC組成一個GPC單元的情況)。
而每個GPC單元又搭載一個獨立的光柵引擎、兩組ROP分區(每組包含8個ROP單元)。
過多關於數數的部分就不再介紹了,畢竟此次架構圖的大面上與NVIDIA Ampere架構基本相同,下面我們分別來看看,除了性能Ada架構還有哪些升級。
Shader Execution Reordering (SER)着色器執行重排序
SER主要的作用是提升着色器性能,它可以將效率低下的工作負載,動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執行類似工作的時候效率最高。但隨着光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態重組為更高效的工作負載。根據NVIDIA的說法,SER可將着色器性能最多提升2倍,並將遊戲幀率最高提升25%。
舉個簡單的例子,當光線第一次從發射端到碰撞端是非常有規律的射線,而碰撞到物體後的二次光追,則會出現大量發散的、無規律的反射,這對於光追負載是非常高的。而從圖中便能看到,SER可以將這些指令進行二次排序,以發揮出着色器的最大性能。
不過好在這麼實用的功能並不是RTX 40系的專利,它是一個易於集成的SDK,目前需要遊戲開發商集成在遊戲中。另外由於它是一個通用的邏輯,後續也有可能直接集成在Windows的API中,這樣遊戲開發者就無需特意引用,直接調用系統API即可。
可以說SER對於手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
第三代 RT Cores
RT Core的作用在於更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率遊戲有點吃力,那麼RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。並且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比於前代提高了2.8倍。而這隻能說明,這張4090並非Ada Lovelace架構的最終形態。
Opacity Micro-Map Engines(OMM)
在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以理解為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕着色器的工作負擔。
比如樹葉之類的複雜物體,不同的光線都會影響它的表現狀態,以及樹葉之間的光線反彈,所以對於光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕着色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可理解為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染複雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的複雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化後,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最誇張的,越複雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大於15倍的速度,容量簡化20倍的模型。
第四代 Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它採用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這裡的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
DLSS 3 神經網絡渲染新時代
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了3.0版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的遊戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。
本次DLSS 3跨越了一個大版本,從想法和原理上也再度升級,完全「猜想」1幀的技術,我們解釋起來簡單,但實施起來需要大量的推理與演算,以及絕對超前的想法。
不過「憑空」生成的1幀,在延遲上絕對要比DLSS 2高。所以此次完整的DLSS 3中,捆綁了NVIDIA Reflex,可以有效幫助減小延遲。
這也不負NVIDIA給它起了個「神經網絡渲染新時代」的名號。縱觀目前市面上的XeSS、FSR技術,DLSS絕對稱得上「巨人的肩膀」。當然,連年的創新,苦的是手持上一代顯卡的玩家,想體驗DLSS 3的幀生成,目前唯一的辦法就是購入一張RTX 40系顯卡。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉遊戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。並分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。並在第二幀中查找匹配的像素區域,計算幀之間的差值。
如果說原來DLSS 2能夠「猜」出一張圖剩下的像素,那麼DLSS 3除了這些,還能夠「猜」出下一幀的畫面。
另外由於DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的遊戲,AI同樣能夠提升幀率。這也是為什麼在此次發佈會中說到,DLSS 3能夠突破CPU的限制來提升幀數。
雙AV1編碼器
本次升級的第八代NVENC編碼器可以說是直播、視頻、後期工作者的極大福音。它首次加入了對AV1編碼的支持,最顯而易見的效果就是直播。
相比傳統的H.264編碼,AV1編碼的效率平均提升了40%,在同碼率下AV1編碼的畫質將更好。目前大部分直播的分辨率和清晰度,均受限於平台規定的最大比特率。以Twitch限制的8Mbps為例,可以看到在同等帶寬下,同為2K 60幀的畫面,採用AV1編碼的清晰度明顯比H.264更高。
說起直播,OBS相信大家都不陌生,在10月份即將發佈的補丁中,OBS就加入了對NVENC的AV1編碼支持
當然,直播只是我們更容易見到的AV1優勢,在視頻工作的所有環節,AV1編碼都可以帶來極大提升。
所以,如圖所見。NVIDIA已經為廣大用戶鋪好了一條完整的生態鏈,從編碼API、軟件、平台到播放器,將全面支持AV1編碼。
另外再說一下NVIDIA一直強調的雙AV1編碼。顧名思義,即部分顯卡內搭載了兩個編碼器,它所帶來的效果也是顯而易見的。
首先,根據官方宣傳的,在4K H.265的導出速度上,RTX 4090是RTX 3090 Ti的2.2倍;在8K H.265的導出速度上更是達到了2.5倍。這部分的提升,大家常用的剪映同樣適用,感興趣的用戶不妨親自體驗一下。
除了導出速度,8K 60幀的視頻錄製在以前簡直難以想像,而雙編碼器的好處就是可以將圖像一分為二,兩個編碼器分別處理7680×2160的圖像信息,最後拼合完整。
關於編碼部分,可能大部分用戶的感受不深,但當有一天,你想錄屏的時候,卻發現顯卡不支持,才會發覺它的重要性……
隨着圖像逐漸進入到超清時代,硬件編碼和渲染幾乎已經成為不可或缺的幫手。雖然論質量,硬件編碼仍不及CPU軟編,但軟編做到了極限畫質,也要承受時間的無窮長。
甚至在一張8K渲染圖中,兩種編碼方式的時間差距就已經達到了幾個小時,遑論一段10秒的CG動畫。在不斷進步的硬件編碼中,質量和時間也在不斷地被挑戰和刷新。
05 測試平台簡介
首先介紹一下測試平台,為了保障iGame GeForce RTX 4090 Vulcan OC這張怪獸的性能發揮,我們的平台也再次進行了全面更新。
不過由於手頭上沒有旗艦處理器,採用了本代中高端產品,並且在電源上進行了着重升級。採用了鑫谷1250W的金牌全模組電源。
首先看一下GPU-Z的參數,iGame GeForce RTX 4090 Vulcan OC採用AD102核心,採用TSMC 4nm定製工藝(TSMC 4 nm NVIDIA Custom Process),芯片面積608平方毫米,這裡相對於RTX 30系的GA102的628平方毫米更小。
擁有16384個CUDA,相比RTX 3090 Ti的10752多52%,Boost頻率達到了2625MHz,相比公版的2520MHz提升非常大。
採用24GB GDDR6X Micron顯存,位寬為384bit,顯存帶寬達到了1008.4 GB/s,光柵單元和紋理單元為176和512。
06 理論性能測試
下面先進行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對應顯卡在1080P、2K、4K的理論性能,取顯卡分數實際測試結果如下:
在針對顯卡DX11性能的3DMARK FS套裝測試中,iGame GeForce RTX 4090 Vulcan OC的提升非常驚人,可以看到在分辨率越高的情況下這張顯卡提升越大,其中FS提升了49%;FSE提升了67%;FSU則暴力提升了78%。
綜合來看,在整個FS套裝的測試中,iGame GeForce RTX 4090 Vulcan OC相較GeForce RTX 3090 Ti的提升約為65%。
而在針對DX12環境下的Time Spy和Time Spy Extreme測試中,iGame GeForce RTX 4090 Vulcan OC相較GeForce RTX 3090 Ti的提升分別為:TS提升57%;TSE提升69%,綜合下來約為63%。
PortRoyal是3DMARK中專門針對光追性能的測試項,iGame GeForce RTX 4090 Vulcan OC相較GeForce RTX 3090 Ti的提升約為56%。
綜合來看,iGame GeForce RTX 4090 Vulcan OC的理論性能相較GeForce RTX 3090 Ti的提升約為61%。
iGame GeForce RTX 4090 Vulcan OC DLSS 3 4K
在本次測試中,我們使用3DMARK的測試版進行了DLSS 3的相關測試。在4K分辨率下,DLSS關閉為52.34幀,DLSS 3開啟後為156.56幀。
RTX 3090 Ti DLSS 2 4K
另外我們也測試了GeForce RTX 3090 Ti在該程序下成績,其中DLSS關閉為32.73幀,由於不支持DLSS 3,所以在DLSS 2下的成績為83.63幀。
iGame GeForce RTX 4090 Vulcan OC在開啟DLSS 3後,相比關閉提升了199%;而GeForce RTX 3090 Ti在開啟DLSS 2後,相比關閉提升了155%。
當然DLSS 3最誇張的還不止數字上這麼簡單,我們再來看看這張圖。
iGame GeForce RTX 4090 Vulcan OC DLSS 3 8K
在8K(7680×4320)分辨率下的DLSS 3測試中,iGame GeForce RTX 4090 Vulcan OC在DLSS關閉的情況下僅有12.66幀,已經無法正常運行遊戲,而在開啟DLSS 3後,一躍達到了87.24的流暢水準,提升了582%!
通過DLSS的測試,其實給我的震驚很大。不難發現在分辨率越高的情況下,幀率提升越大,8K 60幀對於現在的顯卡來說早已不是觸不可及的目標,而在4K分辨率下,即使是3A遊戲也能夠達到電競級的幀率,我們在後面會對遊戲進行詳細測試。
07 常規遊戲性能測試
由於本次RTX 40系加入了DLSS 3新技術,所以後面會進行單獨測試,這裡依然選擇主流的幾款3A大作進行遊戲性能對比。
首先在《地平線5》中,可以明顯看到,不止在1080p分辨率下,即使在2K分辨率中,受限CPU的情況依然明顯。作為一款標準的3A遊戲,在4K分辨率下依然可以跑到135幀,這在以前絕對是無法想像的。
性能方面,iGame GeForce RTX 4090 Vulcan OC相比GeForce RTX 3090 Ti的提升分別為:1080p提升35%;2K提升39%;4K提升59%,綜合提升44%。
在《刺客信條:英靈殿》中,iGame GeForce RTX 4090 Vulcan OC相比GeForce RTX 3090 Ti的提升分別為:1080p提升49%;2K提升53%;4K提升44%,綜合提升49%。
在《無主之地3》中,iGame GeForce RTX 4090 Vulcan OC相比GeForce RTX 3090 Ti的提升分別為:1080p提升51%;2K提升64%;4K提升70%,綜合提升62%。
《光明記憶:無限》的光追測試軟件是獨立於遊戲的測試工具,比遊戲中用到的光線追蹤技術更多,測試條件為「RTX最高/DLSS質量」。所以測試幀數相對較低,但實際遊戲配置相當親民。
性能方面,iGame GeForce RTX 4090 Vulcan OC相比GeForce RTX 3090 Ti的提升分別為:1080p提升42%;2K提升58%;4K提升67%,綜合提升56%。
在另外一款國產遊戲《邊境》的跑分軟件中,情況基本與《光明記憶:無限》相同,測試條件均在「RTX最高/DLSS質量」下進行。
在《邊境》中,iGame GeForce RTX 4090 Vulcan OC相比GeForce RTX 3090 Ti的提升分別為:1080p提升49%;2K提升67%;4K提升81%,綜合提升66%。
08 DLSS 3性能測試
由於本次新技術DLSS 3的推出,將有35款遊戲將於近期推出全新的DLSS 3功能,本次我們也拿到了部分遊戲的測試版。
另外《超級人類》、《生死輪迴》、《逆水寒》「拂雲庭「、《微軟模擬飛行》、《瘟疫傳說:安魂曲》都將在10月陸續發佈支持DLSS 3的版本。
其中《賽博朋克2077》、《F1 22》、《瘟疫傳說:安魂曲》、《微軟模擬飛行》、《逆水寒》本次進行了DLSS 3的測試,另外Unity和虛幻引擎也提供了本次的測試程序。
本次DLSS 3的測試圖標比較繁瑣,並且增加了1% Low FPS和延遲的測試,普通的FPS好理解,那麼這個1% Low FPS是什麼意思。
首先,遊戲benchmark通常測試的FPS即為,一段時間內的遊戲平均幀。而1% Low FPS則是將一段時間內的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。
其實簡單來說,這兩個數值都不能代表我們在遊玩時,具體哪一刻的感受,但FPS更注重整體,而1% Low FPS則是從最差的裏面求平均,更謹慎一些。
看懂了1% Low FPS,我們再來看這張圖表,在坐標軸左側的為延遲(越低越好),坐標軸右側的均為幀數(越高越好),並且由於牽扯到正負坐標,所以兩側的值有可能會不同。
Frameview中的測試結果為小數點後三位,為了方便觀看,這裡在幀數上進行四捨五入,延遲則保留小數點後一位。由於目前測試DLSS 3的遊戲均為測試版,所以難免出現BUG。
在《微軟模擬飛行》中,在開啟和關閉DLSS 2的時候,分數幾乎無變化。這款遊戲是極度吃CPU資源的遊戲,如果瓶頸卡在處理器上,那麼傳統的DLSS 2的確無法提供更多的幀數加成。
而在DLSS 3中,我們能夠明顯看到幀數的大幅提升,要知道我們所有DLSS 3的測試均在4K分辨率下進行。
不過幀生成並不是毫無弊端,這也是為什麼此次測試加入了延遲。並且在開啟DLSS 3後,NVIDIA Reflex是捆綁開啟的。但相對於DLSS 2增加的這點延遲,在實際體驗中的感受並不強。
在《賽博朋克2077》中的數據反映比較真實,可以看到在DLSS關的光線追蹤最高的情況下,即便iGame GeForce RTX 4090 Vulcan OC顯卡也只有43幀,並且延遲達到了85.3毫秒。
而在開啟DLSS 3後,幀數為129,提升了200%。雖然相比DLSS 2的延遲高了6毫秒左右,但相比關閉DLSS來說,依然維持在較低的水平。
《瘟疫傳說:安魂曲》是即將發佈的一款遊戲,在DLSS 3和DLSS關之間的幀數提升,同樣達到了128%。不過在這款遊戲中,DLSS 3相比DLSS 2的延遲增加了18.4ms,但依然比關閉DLSS狀態下要低得多。
目前《F1 22》的數據測試同樣有問題,在DLSS關和DLSS 2中均沒有延遲數據。
這一組主要看幀數的提升。其中DLSS 3相比DLSS關的幀數提升了121%,相比DLSS 2的提升也達到了57%。
最後則是國產遊戲《逆水寒》的光追測試,本次我們選擇的測試demo採用了真正的全局光照。
所以在我嘗試關閉DLSS運行後,第一次電腦直接崩潰重啟,第二次僥倖能夠運行,幀數也僅有個位數,而延遲早已上萬。
還記得在純光線追蹤軟件中測試的《光明記憶無限》和《邊境》,在本次只有DLSS 2的情況下都能夠達到80幀左右。而《逆水寒》這款真正意義上的全局光照,在DLSS 2開啟後僅有42幀左右,着實恐怖。
另外此前DLSS 3的測試,在8K分辨率下也已經達到80幀左右,而《逆水寒》的光追測試中,在開啟DLSS 3的情況下,4K分辨率也只有69幀。
測試到這裡,不禁發問。全局光照真的是未來遊戲的形態嗎?雖然通過NVIDIA官方的宣傳片中能夠看到極其逼真的遊戲畫面,但對於硬件的要求卻超乎想像。
個人認為起碼短時間內,想要普及全局光照遊戲還是有些難度的,除非……下一代的架構會有較大的改動。
當然針對畫質方面,我們也進行了測試,在上圖中我們截取《賽博朋克2077》中的一角,可以看到在兩種DLSS模式下,相較原畫質幾乎沒有明顯變化,只在柵欄處的光影效果有所不同,但對於如此大幅度的幀數提升,這點下次幾乎可以忽略不計。
RTX 3090 Ti即時幀數 39幀
iGame GeForce RTX 4090 Vulcan OC 即時幀數 77幀
在Unity的測試程序中,有一組實時演算的光線追蹤+DLSS的幀數對比。iGame GeForce RTX 4090 Vulcan OC在開啟DLSS 3後,實時幀數為77;而GeForce RTX 3090 Ti在開啟DLSS 2後,實時幀數為39幀,提升約為97%。
DLSS 關 70幀
DLSS 2 121幀
DLSS 3 160幀
在UE5提供的測試遊戲中,方便的給出了DLSS的快捷測試,這裡分為DLSS關(超分辨率關+幀生成關+Reflex關);DLSS 2(超分辨率性能+幀生成關+Reflex開);DLSS 3(超分辨率性能+幀生成開+Reflex開)三檔測試。
其中,iGame GeForce RTX 4090 Vulcan OC在DLSS關的即時幀數為70幀,DLSS 2為121幀,DLSS 3為160幀。不過UE5這個測試的DLSS 3延遲為58.6ms,而DLSS 2為19.9ms,相對較高。
09 專業軟件測試
作為「90」級別的顯卡,擁有24GB的超大顯存,內容創作者領域的應用是必不可少的。我們使用SPECviewperf 13這款工業、專業軟件跑分測試。
對比顯卡為iGame GeForce RTX 4090 Vulcan OC顯卡、上一代旗艦GeForce RTX 3090 Ti顯卡以及上一代遊戲旗艦GeForce RTX 3080 Ti顯卡。
在SPECviewperf 13的軟件測試中,其實仍然出現不少問題。每款專業軟件對於性能提升的程度不盡相同,而且剛剛推出的顯卡對軟件適配也多多少少存在着問題,
3DS MAX甚至出現了負增長的情況,所以後續在軟件更新完善後將再做測試。不過目前部分軟件的分數仍能反映出iGame GeForce RTX 4090 Vulcan OC的強悍之處,其中CATIA相比RTX 3090 Ti提升了55%左右。
iGame GeForce RTX 4090 Vulcan OC 測試得分
RTX 3090 Ti 測試得分
Blender是一款專業的三維渲染軟件,本次推出了固定的benchmark跑分軟件,省去了安裝軟件下載素材的麻煩。這款跑分軟件只需下載好啟動程序,軟件會自動渲染測試monster/junkshop/classroom共三個場景。
上圖為iGame GeForce RTX 4090 Vulcan OC顯卡得分,分別為6324/2908/2964分,平均4065分;下圖為GeForce RTX 3090 Ti顯卡得分,分別為3136/1812/1549分,平均2165分。通過平均分的比較不難發現提升非常明顯,達到了88%,這對於以幀為渲染單位的動畫來說,能夠大幅度節省時間。
10 功耗及溫度測試
功耗測試中,我們選擇FurMark軟件進行拷機測試,並採用GPU-Z檢測溫度,功耗僅計算顯卡自身。
在本次的拷機測試中,iGame GeForce RTX 4090 Vulcan OC的表現同樣出色,在100% TDP滿載的情況下,功耗已經來到了530W左右。可見本次RTX 4090超頻版對於電源的要求確實非常恐怖。
另外在滿載拷機測試中,iGame GeForce RTX 4090 Vulcan OC峰值溫度為71℃,而熱點的峰值溫度為82℃,這對於RTX 4090以及AD102核心來說,已經是非常不錯的了。
11 賽博堡壘 利刃升級
本次iGame GeForce RTX 4090 Vulcan OC顯卡首測,更多的是圍繞新增的DLSS 3進行理論和遊戲測試,而實際效果確實令人驚嘆。
不過從測試中也能發現,測試版尚存在着各種問題。此前NVIDIA也公布過一批即將支持DLSS 3的遊戲,比如《超級人類》、《生死輪迴》、《逆水寒》「拂雲庭」、《微軟模擬飛行》、《瘟疫傳說:安魂曲》這幾款遊戲都將在10月推出升級DLSS 3的版本,大家也可以自己嘗一下,感受幀數暴漲的快感。
另外還有《切爾諾貝利人》、《原子之心》、《戰意》、《賽博朋克2077》、《黑神話:悟空》、《光明記憶:無限》、《永劫無間》、《消逝的光芒2:人與仁之戰》、《巫師三》這些有名的作品都將在後續的版本中加入DLSS 3的支持。
關於RTX 40系顯卡升級的Ada架構,其實在最開始大家並不是很看好,畢竟從整體的架構圖來看幾乎沒什麼變化,難道NVIDIA已經沒有創新了嗎?
可OMM以及DMM引擎的加入,卻讓遊戲幀數再次大幅提升,相比RTX 30系顯卡確實帶來了成倍增長。即使是受限於CPU的遊戲也能突破硬件的顯示,《微軟模擬飛行》能夠在4K分辨率下達到144幀以上的成績,駭人聽聞。
看來在圖形學的進步上,NVIDIA確實沒有瓶頸。即便是目前市面上的其他提幀技術,每一次也都慢NVIDIA一步。
性能方面,其實單看光柵成績算是中規中矩,畢竟大架構在那擺着。但RTX 40系顯卡的真正提升在於進階的RT Core和Tensor Core上。所以此次RTX 40系顯卡,配合DLSS 3「食用」更佳。
不過對於想着手換顯卡的玩家,還是要考慮目前自身硬件能否兼容,大部分AIC顯卡的建議電源都在1000W,雖然根據我們的測試成績來看,低於這個標準的電源依然能夠運行,但如果真出了問題是沒有保障的。
最後再來說一說Vulcan系列的外觀和智屏升級,相較於RTX 30系顯卡來說,這一代沒有那麼鋒芒畢露,整體氣勢收斂許多,給人一種鋼鐵堡壘的既視感。而iGame Vulcan智屏的升級,我認為和未來世界的虛擬世界太像了,不得不說這次的整體升級,形與意都非常契合。