NVIDIA在9月20日正式發布了遊戲玩家翹首以盼的GeForce RTX 4090 GPU,配備了第四代Tensor Cores和第三代RT Cores,AI性能和光追性能相對上代可提升2~4倍,並支持全新的DLSS 3技術,8K解析度下流暢運行光追遊戲大作也是其一大亮點。作為NVIDIA重要合作夥伴,技嘉也在第一時間推出了基於RTX 4090 GPU的旗艦顯卡產品,而GeForce RTX 4090 GAMING OC 24G魔鷹更是率先抵達了我們的測評室。那麼RTX 4090為何如此強大?其採用的全新NVIDIA Ada Lovelace GPU架構到底有哪些進化?且看我們全面的解析與測評。
NVIDIA Ada Lovelace架構帶來革命性進化
Ada Lovelace(1815~1852)是一位英國數學家、計算機程序創始人,被稱為世界上第一位程序員,那麼,以她名字命名的NVIDIA Ada Lovelace GPU架構到底帶來了怎樣的革命性升級呢?
工藝領先,GPU規模與頻率全面提升
完整的Ada AD102 GPU包含了12個GPC、共計18432個CUDA單元、144個RT Cores(第三代)、576個Tensor Cores(第四代)以及576個紋理單元,晶體管數量高達760億個,遠遠超過了NVIDIA Ampere的280億個。在Ada GPU的1個GPC中,包含了6個TPC、每個TPC包含1個多邊形引擎和兩個SM單元,每個SM單元包含128個CUDA單元、1個第三代RT Core和4個第四代Tensor Core。
得益於定製的TSMC 4N製造工藝,NVIDIA Ada Lovelace GPU架構規模達到了空前的強大,同時在工作頻率方面也有了巨大的提升。以當前RTX 40中的旗艦GeForce RTX 4090為例,它包含了11個GPC、共計16384個CUDA單元、128個RT Cores(第三代)、512個Tensor Cores(第四代)以及512個紋理單元 ,默認加速頻率為2520MHz,已經遠遠超過了上代RTX 3090 Ti的1860MHz,而在遊戲中甚至還能更高。總而言之,規模和頻率的全面提升,為NVIDIA Ada Lovelace GPU架構強悍的性能打下了堅實的物理基礎。
Shader Executing Reordering(SER)著色器執行重排序
從NVIDIA官方數據來看,NVIDIA Ada Lovelace GPU架構的著色器數據吞吐量最高可達90 TFlops(GeForce RTX 4090為83 TFLOPS),而上代NVIDIA Amere大約為40 TFLOPS,這當然與新一代GPU規模大幅提升不無關係。
不過,除了規模暴增之外,NVIDIA Ada Lovelace GPU架構還有一項進化就是支持Shader Executing Reordering(SER)著色器執行重排序。我們知道,GPU在完成大量類似工作的時候效率最高,而隨著遊戲中光追效果越來越複雜,著色器面臨的可能就是大量發散的、無序的低效率工作任務,從而影響了渲染效率。SER技術的出現,就可以把這些雜亂的工作任務進行分類,動態重組為更高效的任務,從而提升著色器的執行效率。從NVIDIA官方數據來看,SER技術大約會帶來2倍的著色器性能提升,而在《賽博朋克2077》這樣的光追遊戲實測中,SER也大約帶來了44%的幀率提升。
第三代RT Cores
從RTX 20到RTX 30再到RTX 40,RT Cores當然也進化到了第三代。簡單地從有效光線追蹤計算能力來看,NVIDIA Ada Lovelace GPU架構的第三代RT Cores吞吐量達到了191 TFLOPS,是上一代的2.8倍之多。
另外,我們知道NVIDIA Turing和Ampere GPU中的RT Core包括了用於加速邊界體積層次(BVH)數據結構遍歷的加速單元,並執行射線三角形和光線邊界框相交測試計算。Ampere的RT Cores中,BVH遍歷由Box Intersection Engine進行加速,射線三角形相交測試由三角形相交引擎進行加速,這已經被證明是迄今為止處理光追工作負載最高效的引擎。而在Ada GPU的第三代RT Cores中,除了以上兩個功能外,還引入了稱為「微映射透明度引擎」(OMM)和「微網格置換引擎」(DMM)。
微映射透明度引擎的作用是優化光纖追蹤渲染,大幅降低著色器的工作負載,這對於處理複雜物體光追特性來講提升是很大的。具體的原理是將光線追蹤特性烘焙到不透明的蒙版中,讓那些不規則的形狀與半透明的對象都能更快更精準地被渲染出來。
微網格置換引擎則可以將面數非常多的複雜圖形做簡化,創造出更加簡單的模型,從而實現用基本三角形渲染複雜幾何圖形的目的,大大減少了計算量和對顯存的佔用。從官方數據來看,微網格置換引擎可以讓光線追蹤的BVH速度最多提升15倍以上,而顯存佔用最多可降低到原先的1/20,總之就是越複雜的模型,微網格置換引擎的優化效果越突出。
第四代Tensor Cores
在Ada GPU上,Tensor Cores已經進化到了第四代,而這次Tensor Cores的升級尤其重磅。它配備了全新的FP8引擎,張量處理性能高達1.32 PetaFlops(相對上代提升了五倍之多)——注意單位是以千萬億計的PetaFlops,而之前我們用的是以萬億計的TFlops。當然,第四代Tensor Cores最具革命性的進步還得屬全新加入的光流加速器(Optical Flow Accelerator),而它就是NVIDIA DLSS3黑科技的核心所在,後面的DLSS3章節會詳細介紹。
DLSS3
DLSS技術大家並不陌生,作為RTX系列顯卡提升畫質與幀率的專用黑科技,到RTX 40這一代則直接從之前的2.3版進化到了3.0版,跨度之大證明其改進是革命性的,NVIDIA官方甚至稱其代表了「神經網路渲染新時代」。
和之前的DLSS不同,DLSS3在原有的超解析度功能基礎上進一步引入了光學多幀生成技術,簡單來說就是可以通過AI計算生成新的幀,而不像之前那樣只是生成像素。而這個幀生成的工作,是由在第四代Tensor Cores中加入的光流加速器來完成,當然這就意味著DLSS3中的「幀生成」功能是RTX 40獨享的。光流加速器可以在DLSS2的基礎上計算兩幀之間的光流場,捕捉遊戲畫面中從第1幀到第2幀之間變化的方向與速度,包含粒子、光線照射、反射等像素信息,通過計算運動矢量和光流來精確重建畫面。簡單來說,DLSS2做的是通過AI計算出畫面上剩餘的像素,而DLSS3則在此基礎上還能計算出下一幀完整的畫面,這樣算下來DLSS3等於是完全重建了實際顯示畫面7/8的像素,也可以說是重建了相當於實際渲染像素7倍的像素。此外,由於DLSS3的「幀生成」在GPU中進行,所以即便是CPU性能出現瓶頸,也能提升遊戲幀率。
按照官方數據,DLSS3最多可帶來4倍的遊戲性能提升,讓8K與全景光追遊戲成為了現實。DLSS3包含了「光學多幀生成技術」、「超級解析度」和「NVIDIA Reflex」三大部分,開發者只要整合DLSS3,就可默認支持DLSS2。目前DLSS3已經得到了遊戲開發者與遊戲引擎的支持,超過35款遊戲和應用都將支持該技術,首批遊戲與應用將在10月內推出。
NVIDIA Studio優化
在生產力方面,NVIDIA GPU必然是設計師們優先考慮的高效工具,而RTX 40系列在NVIDIA Studio方面的優化配合NVIDIA Studio驅動也將會為內容創作者們提供更加出色的選擇。總的來說,目前RTX 可以加速 110 多款主流創意應用,此外,SDK的提供使這些應用更加高效,並提供獨家的功能,例如Optix、DLSS和Maxine。NVIDIA Studio 還提供了全套創意應用,包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。
AV1與AI直播
我們知道AV1相比H.264等編碼方式可以在同碼率下提供更加清晰的視頻畫面,而且AV1還支持一些更先進的編碼特性,例如HDR與低延遲。RTX 40的編碼器(顯存12GB以上的RTX 40系列甚至還提供了雙NVENC編碼器)提供了對AV1硬體編碼的支持,而OBS和Discord等推流軟體都將在不久之後提供對NVENC AV1的支持,讓玩家享受到更加精美而流暢的直播視頻畫面。解碼方面,RTX 40的NVENC也繼承了RTX 30上的第5代硬體解碼器,支持MPEG-2、VC-1、H.264(AVCHD)、H.265(HEVC)、VP8/9以及AV1的硬體解碼。AI直播部分,NVIDIA為Broadcast應用帶來了3個全新AI特效:改進的虛擬背景、眼球接觸(讓你看起來像是在看攝像頭)和表情評估,而開發者可以很容易地在自己的APP中集成NVIDIA Broadcast的這些功能。
加速內容創作
前面已經介紹過,在配備12GB顯存及以上型號的RTX 40 GPU中內置了第八代雙編碼器,因此在視頻導出速度方面有了巨大的提升。從圖中可以看到,RTX 4090相對RTX 3090 Ti的視頻轉碼時間縮短了一半多,大大提升了工作效率。DaVinci Resolve、voukoder和剪映都將首發提供對RTX 40雙編碼器的支持。此外,RTX 40在AI視頻工具中也大幅提升了效率,例如DaVinci Resolve AI Magic Mask中,RTX 4090的處理速度就是RTX 3090 Ti的1.7倍。此外,得益於RTX 40系列的第三代 RT Cores、SER、DLSS 3 和 NVIDIA Omniverse,3D 設計師也可以在 4K/60fps 下進行創作,而無需代理,工作效率大大提升。遊戲發燒友和開發者也可以通過Modder直接重製畫面增強的經典遊戲,並通過RTX Remix添加RTX效果。
總的來說,全新TSMC 4N工藝打造的NVIDIA Ada Lovelace GPU在架構、頻率與能效比方面帶來了巨大的升級,提供了相對上代數倍的性能,全新的RT Cores、Tensor Cores設計、光流加速器加持的DLSS3技術等等都堪稱革命性的進步。它不但為玩家帶來了速度與畫面雙絕的光追遊戲體驗(甚至直接進入了8K遊戲的時代),更是為內容創意設計者們帶來了極致高效的生產力利器,稱得上是GPU發展史上又一個里程碑式的存在。
史無前例的壓迫感!RTX 4090魔鷹霸氣登場
作為新一代的旗艦,技嘉GeForce RTX 4090 GAMING OC 24G魔鷹(以下簡稱RTX 4090魔鷹)光是外觀就讓人感受到了極致的壓迫感,配備3.5槽散熱器的它尺寸達到了340mm×150.2mm×75.2mm,堪稱顯卡中的「巨無霸」,如此碩大的散熱器也證明了RTX 4090的實力空前強大。
RTX 4090魔鷹配備了家族獨有的風之力散熱系統,擁有3個110mm風扇,配備納米石墨烯潤滑油、支持3D啟停、正逆轉設計,散熱器的均熱板直觸GPU,搭載10根複合式熱管並提供進氣格柵,有效提升顯卡散熱效率,充分保證RTX 4090 GPU穩定發揮狂野性能。
顯卡配備經過造型強化的全尺寸金屬背板,邊緣彎曲的設計大幅增強了整體架構的強度,完美保證了超重顯卡的抗物理變形能力。配合顯卡附帶的支架,在立式機箱中使用毫無後顧之憂。
為了滿足玩家的不同需求,顯卡還提供了雙BIOS模式,玩家可以一鍵切換性能強悍的OC模式或雜訊更低的靜音模式。輔助供電部分,除了標配新的16pin供電介面之外(顯卡附送16Pin轉8Pin×4電源線,傳統電源也能用),還搭載了供電指示燈,在供電異常時會閃爍,幫助玩家快速排除故障。
個性化部分,顯卡搭載了技嘉獨有的RGB FUSION燈效系統,3風扇上配備的RGB燈在旋轉時的「三環燈效-RGB幻彩光輪」尤其搶眼,並且還能與支持RGB FUSION的其它配件實現燈效聯動,打造酷炫的燈效MOD主機。
介面部分,顯卡搭載了3個DP 1.4和1個HDMI 2.1介面,最多可支持4屏輸出,充分滿足玩家連接多顯示設備的需求。
綜合來看,RTX 4090魔鷹無論是供電、散熱還是個性化設計都達到了目前頂級旗艦的水平,是終極發燒玩家嘗鮮RTX 4090的不錯選擇。接下來就進入大家最為關注的實戰測試部分吧!
RTX 4090光追性能暴增,DLSS3強到不可思議
測試平台
顯卡:技嘉GeForce RTX 4090 GAMING OC 24G魔鷹
技嘉GeForce RTX 3090 Ti GAMING OC 24G魔鷹
處理器:酷睿i9 12900K
主板:技嘉Z690 AORUS MASTER
內存:技嘉AORUS DDR5 6000 16GB×2
硬碟:技嘉AORUS NVMe Gen4鈦雕 2TB
電源:技嘉UD1000GM PG5
操作系統:Windows 11專業版
實戰性能測試
基準性能測試部分,RTX 4090相對RTX 3090 Ti的提升非常誇張。代表DX11性能的FireStike測試中,領先幅度最高超過了80%,而且隨著解析度越高,領先幅度越大,可見除GPU之外的子系統在RTX 4090強大的性能面前已經逐漸出現了瓶頸效應。DX12部分,RTX 4090的領先幅度也接近80%。DXR光追部分,RTX 4090已經領先RTX 3090 Ti超過一倍了,畢竟128個第三代光追單元對上84個第二代光追單元,優勢不言而喻,當然,在PortRoyal中,RTX 4090也領先了80%以上。
遊戲實測部分,對於RTX 4090這種旗艦顯卡來講,使用1080P解析度對GPU的壓力太小,只會凸顯出處理器等子系統的瓶頸,因此我們只在2K和4K解析度下測試。首先是2K測試部分,13款遊戲中,有11款的提升都很明顯,而《毀滅戰士:永恆》的優勢甚至達到了58%以上。《CS:GO》《魔獸世界:暗影國度》這樣的網路遊戲對於GPU的壓力不足,顯然無法發揮出RTX 4090的威力,處理器的性能在這裡也成為了瓶頸。綜合下來,2K解析度下RTX 4090相對RTX 3090 Ti的平均優勢大約為130%出頭。很明顯,2K解析度的壓力在RTX 4090面前顯得太弱了,GPU受制於處理器等子系統的限制根本無法全力施展。因此我們來看看4K解析度下的情況。
隨著解析度提升到4K,RTX 4090的性能優勢就越來越明顯了。在《殺手3》中,RTX 4090甚至領先RTX 3090 Ti超過80%之多,而且這次連《魔獸世界:暗影國度》這類嚴重受制於處理器瓶頸的遊戲,也在RTX 4090強悍性能加持下獲得了28%以上的幀率提升。綜合下來,RTX 4090的4K遊戲平均幀率領先RTX 3090 Ti大約154%,不過很顯然普通的4K遊戲也沒有完全壓榨出RTX 4090的真正實力,GPU壓力還是不夠。那麼,接下來就該光追遊戲上場了!
對於需求極致光追畫面和超高電競級幀率的玩家來講,2K解析度是個相對平衡的設置,對RTX 4090這樣的GPU來講壓力也只是中等。從測試情況來看,除了個別遊戲提升較小之外,其他遊戲基本上都相對RTX 3090 Ti提升了50%以上,最高可提升80%以上。綜合下來平均提升幅度大約為57%,也是非常可觀的。當然,這還不夠,讓我們看看4K光追最極致的壓榨吧!
4K光追遊戲部分,我們還加入了DLSS的測試,RTX 4090擁有更多的第四代Tensor Cores,正好可以一展身手。果然,在4K+極致光追的超高負荷壓榨之下,RTX 4090相對RTX 3090 Ti的優勢再次得到提升。在《F1 2022》《消逝的光芒2》中,RTX 4090真的實現了接近RTX 3090 Ti兩倍的性能!其他不少遊戲中,RTX 4090也保持了70%~80%的優勢,綜合下來不管是DLSS開啟還是關閉,RTX 4090的平均優勢都保持在170%左右。同時,我們也可以看到開啟DLSS後,RTX 4090在很多遊戲中都實現了巨大的性能提升,讓4K極致光追遊戲也能運行在超過100fps甚至是200fps的流暢幀率上。
總而言之,就目前熱門遊戲的情況來看,只有在4K極致光追畫質設置下,才能盡量發揮出RTX 4090的強悍性能,而且從測試遊戲的幀率來看,玩家真的非常有必要給RTX 4090配上一台4K/144Hz的電競顯示器了。
前面的技術解析部分已經介紹過,RTX 40系列還新增了光流加速器,配合同時發布的DLSS3技術可以通過AI計算生成完整的畫面幀,從而大幅提升幀率和降低幀延遲。目前已經有35款遊戲和應用宣布即將支持DLSS3技術,而本次測試我們選用了其中的幾款測試版。在支持DLSS3的遊戲中都提供了DLSS超解析度、幀生成、NVIDIA Reflex的開關選項,這其實就是DLSS3的三個組成部分,而關閉幀生成則等效於使用DLSS2。
從測試結果可以看到,《賽博朋克2077》中,有了DLSS3的幀生成加持,同樣在4K+DLSS性能模式下,RTX 4090的平均幀率甚至超過了RTX 3090 Ti的2.3倍!《逆水寒》的DLSS3測試版更為誇張,專為DLSS3打造的測試副本光追效果直逼電影畫面,對GPU的壓力堪稱變態,就連RTX 4090在4K無DLSS的設置下也只有17fps,開啟DLSS3性能模式後,幀率直接提升了接近4倍達到了84fps,而沒有光流加速器的RTX 3090 Ti在4K+DLSS性能模式下只有25fps,RTX 4090足足領先了236%!由此可見,遊戲中光追特效越多越複雜,DLSS3帶來的性能提升幅度越大,因此要面對未來的全景光追遊戲大作,擁有光流加速器支持DLSS3的RTX 40系列顯然是必備之物。《Lyra》對於顯卡的壓力相對較小,而在開啟DLSS3和幀生成之後,RTX 4090相對RTX 3090 Ti也有最多約65%的幀率優勢。3DMark也發布了一個支持DLSS3的內部測試版,可以看到,RTX 4090在開啟DLSS3後幀率暴增200%,相對DLSS2加持的RTX 3090 Ti也領先了117%,可見RTX 40系列加入的光流加速器確實是個非常厲害的設計。
我們還簡單比較了一下DLSS3加持的遊戲畫質。從圖中可以看到,經過AI機器學習,目前DLSS對於畫質的優化已經非常出色了,就算是注重性能的DLSS性能模式,畫面的銳利程度和細節甚至都好於關閉DLSS的原生畫面(注意看車尾燈的紋理),這也是為什麼NVIDIA也推薦大家在4K解析度下選擇DLSS3性能模式的原因,確實做到了畫質與高幀率兼得。
對於設計師用戶來講,NVIDIA Studio那可是太熟悉了,那麼擁有24GB超大顯存的RTX 4090作為生產力工具又有多強呢?我們選擇了主流的3D渲染工具和視頻剪輯軟體來進行實測。從測試結果可以看到,RTX 4090相對RTX 3090 Ti的渲染性能幾乎就是成倍的增長,多數項目都有80%~100%的性能提升。而視頻轉碼部分,由於RTX 4090有雙編碼器加持,剪映中的轉碼速度幾乎都是RTX 3090 Ti的兩倍。此外,RTX 4090還提供了AV1編碼支持,而RTX 3090 Ti沒有對應的硬體編碼器當然也就不能支持了。
總而言之,對於3D設計師或者視頻特效與剪輯工作者來講,從RTX 3090 Ti升級到RTX 4090基本上就等於獲得了高出一倍的處理效率,顯然是非常值得的。
功耗溫度與超頻測試
RTX 40系列採用了TSMC 4N製造工藝,頻率和能效都相對上代大幅提升,這也讓它的GPU頻率非常有望提升到3 GHz以上。當然,技嘉RTX 4090魔鷹也搭載了強悍的10熱管3風扇3.5槽散熱器,目的就是要讓RTX 4090能夠穩定釋放功率、發揮性能。從GPU-Z信息來看,RTX 4090魔鷹默認GPU加速頻率為2535 MHz(遊戲中最高可達2775 MHz),功率牆還可以向上調節33.3%,可見提升空間還很大。
FurMark實際考機頻率為2745 MHz,默認考機功率最高441W,GPU溫度最高63.1℃,結溫71.9℃,散熱的表現也比較不錯。既然散熱器這麼強悍、功率上限那麼高,我們當然要試一下超頻。通過反覆嘗試,在不調節電壓的情況下,RTX 4090魔鷹的GPU頻率成功突破3 GHz大關,3DMark中實測頻率可達3015 MHz,此時TGP也衝到了500W以上,FireStrike Ultra分數從默認頻率的25082提升到了26527,而工作溫度也不過是稍有上升,可見其供電和散熱設計確實完全能HOLD住RTX 4090這顆怪獸級GPU。
總結:享受光追遊戲終極神器,RTX 4090魔鷹就是至尊之選
全新打造的NVIDIA Ada Lovelace GPU架構為RTX 40系列帶來了革命性的進步,除了從TSMC 4N工藝獲得的超大晶元規模與高頻率增益之外,第三代RT Cores和第四代Tensor Cores也大放異彩,特別是全新加入的光流加速器,讓DLSS3技術的AI幀生成得以實現,從而大幅增加遊戲幀率,最終帶來2~4倍的光追遊戲性能提升,讓4K極致光追遊戲以電競級幀率流暢運行變得輕而易舉,也讓玩家可以從容應對未來畫面更加真實的全景光追遊戲與8K超極清遊戲。此外,從前面的測試也可以看到,RTX 4090在3D渲染輸出與視頻剪輯方面相對上代也有成倍的性能增幅,對「時間就是金錢」的生產力應用來講真的稱得上是必買的頂級高效工具。
因此,對於追求極致遊戲體驗的發燒玩家和追求頂級效率的設計師用戶來講,RTX 4090毫無爭議是當前最強的選擇,追求一步到位更是必須入手。當然,在超公版RTX 4090中,技嘉RTX 4090魔鷹不但用料豪華、散熱設計過硬,還擁有高達133.3%的功率釋放空間,完全就是給DIY玩家、遊戲發燒友和高性能用戶量身訂製的豪華旗艦,值得強烈推薦。