1引言&規格對比&外觀賞析
引言
要說下半年DIY圈內有什麼驚天動地的變化,那非RTX4090顯卡莫屬,它的性能表現着實讓人印象深刻,AdaLovelace架構和TSMC4N工藝讓這款顯卡的能耗比有了新的突破,老黃的獨家黑科技DLSS3讓一眾遊戲玩家為之振奮,豪華的堆料使生產力效率提升明顯,不過由於高昂的售價和產能一卡難求。

不過,旗艦終歸是少數人才能用得上的硬件,普通玩家更需要一款性能、功耗、溫度以及價格都更合適的顯卡。而RTX4080可能是目前最合適的選擇,最近我們剛好收到了映眾旗下的GeForceRTX408016GB冰龍超級版,讓我們一起通過評測來看看RTX4080究竟能不能對得起它的定位。
*下文中「映眾GeForceRTX408016GB冰龍超級版」簡稱為「映眾RTX4080冰龍超級版「
規格對比
在開始之前,先了解一下本次的主角RTX4080,其採用的是AD103-300核心,TSMC4N工藝製造,芯片面積為379平方毫米,晶體管密度達到了459億,晶體管數量相比較於上一代產品提升明顯,近乎翻倍,而這一代的核心還進一步提升了頻率,因此能帶來更好的性能表現。

其他參數方面,RTX4080RTX4080標配9728個CUDA,128個第三代RTCores,512個第四代TensorCores,並且用上了16GB的GDDR6X顯存,大顯存配合性能上的提升更可以為遊戲以及創作者帶來更好的使用體驗。
而目前RTX4080顯卡配備的AD103-300核心並不是完整的AD103核心,完整的AD103核心應該包括7個GPC(圖形處理集群)、40個TPC(紋理處理集群)、80個SM(流式多處理器)以及一個帶有8個32Bit顯存控制器的256Bit顯存帶寬。因此筆者猜測,RTX4080或許不是AD103核心下的終極產物,後續應該還會推出完整AD103核心的RTX4080Ti。

再看看下方的RTX4080的核心結構圖,和完整版本的AD103核心對比起來就很容易看出差別,RTX4080核心代號為AD103-300,其擁有4個完整規格的GPC(圖形處理集群,每個內建6個TPC),與3個非完整的GPC(兩個內建5個TPC,一個內建4個TPC),共組成38個TPC,SM單元則剩下76個,顯存位寬還是完整的256Bit。

但是RTX4080上的AD103-300核心在編解碼器上砍了一刀,不得不說老黃的刀法精準,編解碼器數量直接砍半,與RTX4090同等規格,僅保留了兩個NVENC編碼器和一個NVDEC解碼器,因此完整版的AD103核心應該會有更快的視頻編解碼速度,不過之前測試過RTX4090,編解碼速度相比上一代有着近乎翻倍的提升,想必RTX4080也有不錯的表現。
外觀賞析:映眾 GeForce RTX 4080 16GB 冰龍超級版
包裝盒的正面印着映眾RTX4080冰龍超級版的渲染圖,從上面我們就可以看到這款顯卡採用三風扇設計,身披黑灰色戰甲,從外到內都散發著冷酷低調的氣息。

包裝盒的背面更為簡約,印着映眾RTX4080冰龍超級版全新升級的技術介紹以及品牌理念。

打開包裝後,還是那個熟悉的味道,這代映眾RTX4080冰龍超級版延續了之前的設計,以黑灰色為基調,輔以銀白色的裝飾條,質感出眾。

正面三把巨大的散熱風扇格外引人注目,風扇四周被酷炫的裝甲的裝甲包圍,濃濃的裝甲風撲面而來。仔細觀察還可以看到中間的風扇與兩側風扇轉向相反,這樣可以防止亂流,有效提高散熱能力。

近距離的觀察散熱風扇,每把風扇上有9個99mm的扇葉,並且風扇支持智能啟停,顯卡低負載時能夠維持低轉速,降低噪音。

來到顯卡背面,映眾RTX4080冰龍超級版與大多數高端顯卡一致,採用全尺寸的金屬背板,能夠起到加固和保護PCB的作用,畢竟現在的顯卡真的太重了。在靠近核心的位置印有獨特的三角形紋路與「iCHILL」和「GEFORCERTX」字樣。

金屬背板末端是鏤空的窗口設計,隱約可以看見內部的散熱鰭片,這樣設計有利於增進內部空氣對流,前方的散熱風扇也可以更快速的帶離內部熱量。

顯卡的頂部是GEFORCERTX字樣,一整排的出風口橫跨整個顯卡頂部,在RTX字樣的隔壁是映眾iCHILL的燈牌,未點亮的情況下若隱若現。

上機點亮後,燈牌亮起,支持燈效同步設置,恰到好處的RGB效果,既不過分花哨,但又顯得炫酷而沉穩。

顯卡的底部也安排上了一整排鱗次櫛比的散熱鰭片,快速排出熱量,降低核心溫度,保障下卡穩定輸出。

供電接口用的是ATX3.0標準下的12VHPWR接口,單口可提供600W的供電能力,用來帶RTX4080已經是綽綽有餘了。

顯卡金手指則是常規的PCIe4.0x16接口,值得注意的是,使用前一定要打開主板的ResizableBAR功能,這樣才能跑滿帶寬,完全發揮顯卡性能。

接口方面配備了三個DP1.4a和一個HDMI2.1a,最高支持8K多屏輸出,這樣的接口能力完全能夠滿足需求。

另外,這代RTX4080的體積已經跟老大哥RTX4090不相上下,映眾RTX4080冰龍超級版足足有3.5槽厚,在裝機時要注意機箱尺寸。

2顯卡拆解:映眾 GeForce RTX 4080 16GB 冰龍超級版
顯卡拆解:映眾 GeForce RTX 4080 16GB 冰龍超級版
看完映眾RTX4080冰龍超級版的外在,下面我們看看這款顯卡的內在,卸下金屬背板上的螺絲即可分離PCB與碩大的散熱器。

正面PCB上的接口、供電、核心等位置都盡然有序,安排合理,越肩設計不過PCB明顯比RTX3090Ti要小一些,電子元器件的密度也更大,這對設計能力是一個不小的考驗。

PCB的背面比較簡潔,多是一些控制芯片,核心的背面還有兩顆兩個POSCAP(導電聚合物鉭電容),有它們坐鎮,顯卡整體的電氣性能會更強。

AD103-300-A1核心坐鎮PCB的正面,TSMC4N定製工藝打造,換裝了全新的AdaLovelace架構,有了這顆強大的GPU核心,映眾RTX4080冰龍超級版才能有旗艦級的性能表現。

核心旁則是8顆GDDR6X顯存,來自美光,型號為2PU47D8BZF,作為GDDR6的升級版,顯存位寬為256Bit,速度達到了22.4Gbps,並且單顆容量達到了2GB,8顆組成16GB超大顯存。

想要驅動核心和顯存,還必須有穩定的供電規模,映眾RTX4080冰龍超級版採用14+3相供電,更有全封閉式電感、富士通FP固態電容等高品質元器件在旁輔助,為顯卡注入澎湃動力。

每相供電配備了獨立的DrMos芯片,封裝型號為BLN0,實際應為AOS的AOZ5311NQI-03,持續輸出電流為55A。

核心供電DrMos芯片

顯存供電DrMos芯片
核心供電和顯存供電均配有PWM供電控制芯片,安排在PCB背面,型號分別是:uP9512R、和uS5650Q。其中uP9512R管理核心供電,可以做精細化的供電管理,而uS5650Q則是主要負責顯存供電部分。

uP9512R芯片

uS5650Q芯片
PCB的右上方是顯卡的供電接口,用的是最新的12VHPWR,單口最大功率600W,僅需一根12VHPWR的電源線就可以完成顯卡的供電。

再將剩餘螺絲卸下就可以看到映眾RTX4080冰龍超級版的散熱系統了,映眾稱其為第八代冰龍散熱系統,其主要由散熱器、散熱風扇以及金屬背板組成。

這款散熱器的金屬主體也是相當的龐大,不僅能夠為GPU進行散熱,而還能夠為顯存、電感以及MOS管進行散熱,在均熱板上配備了高係數的導熱墊輔助散熱,散熱效果拉滿了屬於是。

映眾還在金屬背板的內側附加了導熱墊,能夠起到額外輔助散熱的作用。

大面積的散熱鰭片被安排在散熱器上,足足有6cm高,提供了0.99m2的散熱面積,有效提升氣流流動效率,改善顯卡內部的溫度,確保顯卡能夠一直穩定運轉。

散熱器中間夾着8根6mm複合熱管,直觸上方的均熱板,能夠快速將熱量傳導至旁邊的散熱鰭片,散出顯卡內部。

第八代冰龍散熱系統中還有三個直徑約10cm的散熱風扇作為主動散熱,這樣的規格壓制AD103核心完全不成問題。

每個風扇擁有9個99mm的超大風扇葉,採用正逆風道設計,增強散熱能力的同時還能防止亂流。

3測試平台&理論/遊戲性能測試
測試平台介紹
下面介紹一下我們的測試平台,既然是測定位次旗艦的映眾RTX4080冰龍超級版,那與之搭配的硬件也不能輸,我們拿出了評測室的最強平台組合,CPU用的是Inteli9-13900K,主板為ROGMAXIMUSZ790HERO,內存插滿,直接上金士頓的64GBDDR5-6000,這樣的配置才能讓展現這張顯卡的性能。

都知道RTX4090甚至能玩8K遊戲,那RTX4080流暢4K也不成問題,為了更好的展現映眾RTX4080冰龍超級版在4K遊戲中表現,我們為它配備了一台天花板級別的顯示器——愛攻&保時捷聯名設計的AGONPD32M,4K@144Hz高刷,還有miniLED背光加持,從裡到外都散發著一種高級感,相信有了它的支持,我們能夠見識到映眾RTX4080冰龍超級版極致的遊戲性能。

國際慣例,在GPU-Z軟件中可以看到映眾RTX4080冰龍超級版已經正確識別,這款顯卡的基準頻率為2205MHz,Boost頻率可以達到2565MHz,相比公版還要高出60MHz,這讓人對它的性能表現充滿期待。另外上機前一定要打開主板的ResizableBAR功能,這樣顯卡才能最大限度的發揮出全部性能。

GPU-Z中還可以了解到映眾RTX4080冰龍超級版的溫度和功耗策略,顯卡的TGP設定為320W與公版保持一致;溫度牆限制為88℃,不過以冰龍超級版的散熱能力,顯然是不可能撞到溫度牆限制的。
理論性能測試
上機後先進行3DMark的理論性能測試,為了更直觀的看到映眾RTX4080冰龍超級版的性能提升,我們加入了前代卡皇RTX3090Ti進行對比。
首先是以DX11為代表的FireStrike系列測試,映眾RTX4080冰龍超級版已經突破6W大關,在4K分辨率下的FireStrikeUltra測試中,性能已經領先RTX3080Ti有40%之多。而在以DX12為代表的TimeSpy系列測試中,這張顯卡的表現也是不負眾望,前代顯卡還沒能觸及1W分的及格線,而映眾RTX4080冰龍超級版的得分已經高達14186,領先幅度也來到了40%左右。

光追和DLSS作為老黃的拿手好戲,RTX40系顯卡在這上面也有了長足的進步,映眾RTX4080冰龍超級版在PortRoyal測試中得分高達18137,已經比不少其他品牌的RTX4080還要高了,如果對比前代卡皇RTX3090Ti,那這個領先幅度會更大,RTX3090Ti僅有1W4左右,單是光追性能上的提升就有30%以上,光追加DLSS後更是性能爆表。

上面測試的更多是遊戲理論性能,這款顯卡在算力方面也有不俗的表現,映眾RTX4080冰龍超級版在AIDA64GPGPU的理論測試中相比RTX3080Ti領先足足有44%以上,相比卡皇RTX3090Ti也有35%左右的性能提升,看來老黃這次是把牙膏擠爆了,才讓這款顯卡有如此驚人的提升。

遊戲性能測試
理論性能的提升堪稱離譜,那映眾RTX4080冰龍超級版在實際遊戲中的表現究竟如何,我們選用了多款遊戲在不同分辨率下實測這款顯卡的性能表現。
1080P分辨率下對映眾RTX4080冰龍超級版可以說是躺贏,畢竟上一代的RTX3080Ti都能夠100+FPS流暢運行,這樣高端的顯卡在1080P分辨率下明顯沒辦法展現其真正實力。

2K分辨率下,映眾RTX4080冰龍超級版終於開始發力了,不過實測遊戲基本都能穩定在144FPS以上運行,不少遊戲項目領先前代近百幀,甚至像《戰爭機器5》這樣的遊戲,這款顯卡已經可以滿足2K@240Hz的超電競需求了。

4K分辨率下,映眾RTX4080冰龍超級版遊戲性能的領先幅度逐漸擴大,已經有高出前代40%的性能。像是熱門的《賽博朋克2077》對硬件要求極高,前代的RTX3080Ti只可以勉強跑到59FPS,而映眾RTX4080冰龍超級版在開啟DLSS2的情況下已經可以90FPS流暢運行了,如果開啟DLSS3幀數將進一步上升,那RTX3080Ti就很難望其項背了。

8K分辨率可以說是顯卡的修羅場了,我們實測了多款遊戲,映眾RTX4080冰龍超級版依舊在部分遊戲中能夠突破60FPS,像《地平線5》和《古墓麗影:暗影》這類優化得當的遊戲,這款顯卡能夠去到70FPS甚至上百幀,這麼看來映眾RTX4080冰龍超級版的遊戲性能還是不錯,遊戲玩家不要錯過了。

4DLSS 3性能測試
DLSS 3性能測試
前面提到光追作為老黃的獨門秘技,在RTX20系顯卡上就已經推出了,不過當時的顯卡性能還不足以帶動光追,因此推出了DLSS超采技術,能夠讓顯卡能夠在不影響畫質的前提下提高遊戲性能,讓玩家能夠體驗更真實的遊戲畫質。現在這項技術已經更新至DLSS3.0,新增了幀生成和NVIDIAReflex技術,能夠實現遊戲性能的翻倍提升。
3DMarkDLSS3理論性能測試
在3DMark的理論測試中,得益於DLSS3的加持,映眾RTX4080冰龍超級版的性能更進一步。4K分辨率下,開關DLSS3性能差距能夠達到3倍以上。8K分辨率下更是離譜,不開DLSS時,僅有1.5FPS,開啟DLSS2後,幀數雖有提升,但45FPS並不足以流暢運行,而啟用DLSS3後,幀數直接來到了70FPS,性能差距接近70倍,看來老黃的DLSS3真的有點東西。

UnrealEngine5EnemiesDEMO性能測試
在實際遊戲測試前,我們先測試了開發遊戲所需用到的UnrealEngine5引擎,UE5作為全新的遊戲開發引擎,對顯卡的壓力自是不小,在EnemiesDEMO中,映眾RTX4080冰龍超級版在開啟DLSS3後性能飆升,4K分辨率下可達77AVG/661%FPS/55ms的水平,而關閉DLSS3僅有22AVG/171%FPS/195ms,前後足足相差3倍之多,不得不說老黃的DLSS3真的是黑科技一般的存在。
有玩家可能會覺得幀數提升那麼大是不是通過降畫質實現的,因此我們也進行了對比,可以從視頻中可以看出,即使開啟DLSS3後,從肉眼看來,開關前後的畫質幾乎沒有區別,並且因為DLSS是利用AI進行渲染,在部分細節上,DLSS模式下的畫質甚至比原生畫質還要清晰,所以有了DLSS3後,遊戲流暢度提升的同時,畫質也不受影響,妥妥的雙贏局面。
《生死輪迴》遊戲實測
《生死輪迴》作為首批支持DLSS3的遊戲,我們在實測過程中發現,在不開啟DLSS的情況下,映眾RTX4080冰龍超級版的幀數僅有50FPS,而我們一旦開啟DLSS2後遊戲的幀數已經能夠去到122FPS了,降低部分特效,此時已經可以滿足4K@144Hz的遊戲需求。

當我們打開最新的DLSS3後,遊戲幀數以肉眼可見的速度往上提升,足足提升了有20FPS,此時映眾RTX4080冰龍超級版在4K分辨率已經能夠跑到143FPS的平均幀,如果配上我們所用的AGONPD32M保時捷聯名顯示器,這個性能加上144Hz的高刷屏,遊戲體驗直接起飛。
2K分辨率DLSS性能測試
我們也是實測了多款遊戲跟程序,從實測結果來看,映眾RTX4080冰龍超級版在2K分辨率下沒有絲毫壓力,不少RTX3080Ti只能跑100FPS的遊戲,在映眾RTX4080冰龍超級版上都可以去到200+FPS了,遠遠甩開了前代顯卡,加上DLSS3後更是能夠達到恐怖的300FPS。

4K分辨率DLSS性能測試
4K分辨率一樣能夠被映眾RTX4080冰龍超級版征服,開啟DLSS3後,遊戲性能大幅提升,開關前後差距在有些游戲裏就是能玩和不能玩的區別;並且即使是4K分辨率依舊有不少遊戲都能跑到144FPS以上,看來4K分辨率對映眾RTX4080冰龍超級版沒有壓力,我們還得上8K試試。

8K分辨率DLSS性能測試
8K分辨率下RTX4080顯卡就不太夠用了,實測下來,只有少部分遊戲或程序能夠流暢運行在60FPS左右,筆者認為這是由於顯存不足的問題導致,後續還需要遊戲廠商進行優化,才能讓這款RTX4080在8K分辨率下完美展現出應有的實力。
5創作生產力&雙NVENC編碼器性能測試
創作性能測試
創作生產力也是不少用戶關注的重點,因此我們這次選擇PugetBench、PCMark10這兩款常見的測試軟件,來測試映眾RTX4080冰龍超級版在日常辦公、視頻內容生產等方面的性能表現。
首先是PCMark10的測試,這張顯卡在數位內容創作和遊戲項目上有不小的提升,整體性能相比前代領先了8%以上,甚至與自家的老大哥RTX4090五五開;而在創作生產力軟件測試中也印證了上面的性能提升,單是在達芬奇剪輯軟件的Benchmark測試中,性能就領先RTX3080Ti約16%。
另外值得一提的是映眾RTX4080冰龍超級版由於配備了16GB大顯存,在實測中沒有遇到過項目崩潰的情況,正因為有大顯存的加持,讓這款顯卡能夠運行更多更複雜的項目,而前代僅有12GB顯存因此常常出現爆顯存的狀況。
再來看看映眾RTX4080冰龍超級版在建模、渲染、工業設計等方面的表現,在Blender渲染軟件中,9728個CUDA核心依舊強勢,分別領先RTX3080Ti和RTX3090Ti有52%和45%,足見這代顯卡的實力之強勁。
而在SPECviewperf2020集成的8款工業軟件測試中也是如此,性能提升也來到了32%左右,也就是相同的模型渲染,換裝映眾RTX4080冰龍超級版能夠讓你縮短近三分之一的渲染時間,效率提升明顯。
雙NVENC編碼器專項測試
老黃的黑科技不單止DLSS3一種,他在RTX40系顯卡上還安排了雙NVENC編碼器,支持時下熱門的AV1編碼,而AV1作為下一代主流的視頻編碼技術有着自己獨特的優勢,其具有更快的編碼速度和更高質量的流媒體傳輸性能,像達芬奇、萬興喵影、剪映等常用的剪輯軟件已經支持AV1編碼,B站等主流的視頻網站也加入了AV1解碼,未來AV1將會成為一個新趨勢。
既然有雙NVENC編碼器,那我們就得實測一下這款顯卡的編碼能力如何。我們使用NVIDIA提供的8K片源與工程文件分別測試AV1格式和H.265格式下的編碼時間,實測映眾RTX4080冰龍超級版的編碼能力已經能夠跟老大哥RTX4090平起平坐了,使用AV1編碼時速度明顯優於H,265格式,即使換成H.265編碼,有雙編碼器的加持下,映眾RTX4080冰龍超級版的效率比前代快62%以上。
從上面的對比測試中可以看出AV1編解碼在導出速度上明顯領先H,265格式,不過它在佔用空間上也頗有優勢,從下圖可以看到無論是4K還是8K分辨率,採用AV1編碼後,視頻文件大小平均能夠降低25%以上。
AV1在編碼導出、佔用空間上本就有不小的優勢,同時它的畫質也不輸H.265格式,這裡我們截取了幾個畫面進行對比,從肉眼來看,其實畫質幾乎完全一樣,這樣也意味着AV1可以用更小的空間佔用量實現與H.265同等規格的畫質表現,不得不說視頻工作者真的可以換顯卡了,AV1編解碼的加入讓映眾RTX4080冰龍超級版有了超強的導出性能和戰未來的能力。
6功耗&超頻&評測總結
功耗與發熱
TSMC4N工藝和架構革新雙重加持下,RTX40系顯卡的性能有了極大的提升,這次映眾更是給自家的RTX4080顯卡用上了超規格的散熱系統,這讓筆者對映眾RTX4080冰龍超級版的溫度和功耗表現充滿期待。
在Furmark甜甜圈單烤15分鐘測試中,映眾RTX4080冰龍超級版的佔用率達到了99%,但此時的GPU核心溫度僅有65℃,而GDDR6X顯存作為發熱大戶更是低至48℃,足以證明這代顯卡在架構設計及散熱器上真的下足了功夫。
除了溫度表現喜人外,映眾RTX4080冰龍超級版在噪音控制方面也表現不錯,溫度比前代RTX3090Ti低的同時,風扇轉速也一直保持在低位,幾乎感受不到風扇的噪音,綜合來看,這款顯卡的散熱器表現優秀,應對適當的超頻操作也不在話下,並且在能耗比方面也遙遙領先上代產品,這才是高端顯卡應有的表現。
超頻體驗
既然是次旗艦顯卡,那除了標準的性能測試外,自然是少不了超頻測試,我們利用的是映眾自家的INNO3DTuneIT超頻軟件,在該軟件上可以調節核心頻率、顯存頻率,解鎖功耗和溫度牆等操作。
點擊INNO3DTuneIT界面上的「智能掃描」按鍵,軟件開始對顯卡進行較長時間的智能掃描,掃描完成後還可以智能超頻,使用起來相當方便,即使是超頻初學者也能夠輕鬆上手,收穫超頻帶來的性能提升。
不過這次筆者採用手動調整的方式,將GPU核心提升了160MHz,顯存也超頻1250MHz,最終超頻結果,在3DMark中的TimeSpy測試項目,GPU來到了2970MHz,顯存也達到了1556.5MHz,得分29692,相比默頻狀態下有近4%的性能提升,表現還不錯。
當然這還不是這款顯卡的極限,如果你有更好的散熱條件,這款顯卡的超頻能力還能進一步提升,感興趣的玩家不妨嘗試一下,探探這款顯卡的極限。
評測總結
測試下來可以說老黃這次真的有認真在做RTX40系顯卡,換裝的AdaLovelace架構給這代顯卡的光追帶來了巨幅提升,雙編碼器和支持AV1讓生產力也能感受科技進度帶來的效率提升,還有DLSS3黑科技加持,遊戲性能也不可小覷,以前8K想都不敢想,現在已經近在咫尺,總的來說,這代RTX40系顯卡處處皆驚喜。
而此次送測的映眾GeForceRTX408016GB冰龍超級版就是其中的典範,外觀精緻,堆料激進,質感出色,散熱表現更是優異,並且預留了一定的超頻空間給玩家,搭配自家的超頻軟件,小白也能輕鬆上手。
這款顯卡的性能表現也是可圈可點,暢玩各類遊戲大作沒有一點問題,甚至不少遊戲還能滿足4K@144Hz的電競需求;16GB的超大顯存也讓它躋身生產力顯卡的前列,兼具生產力顯卡的性能,性價比也不低。
目前映眾GeForceRTX408016GB冰龍超級版已經上市,售價10699元,顯然這是一款面向遊戲發燒友及生產力創作者的顯卡,不過以其強勁的性能和出色的表現,它還是無愧於高端顯卡的稱號,感興趣的玩家不妨關注一下。
7技術講解:Ada Lovelace架構
Ada Lovelace架構講解
Turing、Ampere上兩代架構核心均以人物來命名,前者是計算機科學之父——艾倫·麥席森·圖靈;後者則是「電學中的牛頓」——安德烈·瑪麗·安培,電流的國際單位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,這是 人稱「數字女王」的阿達·洛芙萊斯,編寫了歷史上首款電腦程序,是被世界公認的第一位計算機程序員,果真是一代比一代還要更牛。PS:她的父親是《唐璜》的作者,詩人拜倫喔。
從Turing架構開始,NVIDIA首次在顯卡中加入了加速光線追蹤的RTCore單元,以及面向AI推理的TensorCore單元,這革命性的創新使實時光線追蹤成為可能。而Ampere架構則是全面的架構改進,在加入新一代的二代RTCore和三代TensorCore基礎上,還有着更先進的SM單元設計,這樣顯卡工作效率那是翻倍的提升。而來到AdaLovelace架構,同時是以效率提升為大前提,自然是引入了最新的第三代RTCores與第四代TensorCores單元,同時加入眾多新穎的黑科技,從執行效率來說AdaLovelace架構是上代Ampere架構的2倍以上,甚至光線追蹤能力更是達到了恐怖的4倍性能。
全新的SM流式處理器
AdaLovelace架構中最大的亮點之一:全新的SM流式多處理器,每個SM包含了128個CUDA核心、1個第三代的RTCores,4個第四代TensorCores(張量核心)、4個TextureUnits(紋理單元)、256KBRegisterFile(寄存器堆),以及128KBL1數據緩存/共享內存子系統,於是這一個全新的SM單元有着超過上一代2倍之的性能表現。
過去的Turing架構INT32計算單元與FP32數量是一致的,而兩者相加才組成了64個CUDA核心。但是Ampere架構開始,左側的計算單元實現了FP32+INT32的計算單元並發執行,也就是說CUDA核心數量翻倍到了128個。
再來看看AdaLovelace架構的SM,FP32/INT32的計算單元組合,同樣實現了每個SM內含128個CUDA的設計,看似提升不大,但是當你了解到GeForceRTX4080擁有76個SM,9728個CUDA核心,那你也就應該明白達82.6TFLOPS的着色器能力是如何實現的了,比上一代的RTX3090Ti顯卡的40TFLOPS,還真是提升了兩倍有多。
另外緩存方面AdaLovelace架構也進行了大規格的提升,首先每個SM單元中單獨配上了128KB的緩存,這樣RTX4080顯卡中就實現了97MBL1/共享內存。其次核心的二級緩存進行進行了重新的設計,並且完整AD103核心與RTX4080都是64MB二級緩存,相比RTX3080Ti可以說是質的飛躍。
技術講解:第三代 RT Cores與第四代 Tensor Cores
以為剛才的CUDA數量與超大L2緩存就已經很猛了,實現上AdaLovelace架構最大的提升還是在第三代RTCores與第四代TensorCores身上。
第三代RTCores
RTCores用於光線追蹤加速,第三代RTCores的有效光線追蹤計算能力達到191TFLOPS,是上一代產品2.8倍。
在Ampere架構中,第二代RTCores支持邊界交叉測試(BoxIntersectiontesting)和三角形交叉測試(TriangleIntersectiontesting),用於加速BVH遍歷和執行射線三角交叉測試計算,雖然光線追蹤處理能力已經比初代的Turing架構核心更高效,但是隨着環境和物體的幾何複雜性持續增加,傳統的處理方式很難再以更高效率、正確反應出的現實世界中的光線,尤其是光的運動準確性。
所以在第三代RTCores增加了兩個重要硬件單元:OpacityMicromapEngine與DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用於alpha通道的加速,可以將alpha測試幾何體的光線追蹤速度提高2倍。
在傳統光柵渲染中,開發人員使用一些Alpha通道的素材來實現更高效的畫面渲染,例如Alpha通道的葉子或火焰等複雜形狀的物體。但在光線追蹤時代,這傳統的做法會為光線追蹤帶為不少無效的計算,例如運動性的光線多次通過一塊葉子,光線每擊中一次葉子,都會調用一次着色器來確定如何處理相交,這時就會做成嚴重的執行成本與時間等待成本。
而OpacityMicromapEngine用於直接解析具有非不透明度光線交集的不透明度狀態
三角形。根據Alpha通道的不透明,透明與未知等三個不同的塊狀態進行處理:透明則直接忽略繼續找下一個,不透明塊則記錄並告之命中,而未知的則交給着色器來確定如何處理,這樣GPU很大部分都不需要進行着色器的調試處理,能夠實現更為高效的性能。
DisplacedMicro-MeshesEngine
如果說OpacityMicromapEngine加速的是面處理,那麼DisplacedMicro-MeshesEngine就是幾何曲面細節的加速器。如上圖所示,在AdaLovelace架構中,通過1個基底三角形+位移地圖,就可以創建出一個高度詳細的幾何網格,所需要資源佔用比二代RTCores更低,效率也更高。
通過NVIDIA給出的創建14:1珊瑚蟹例子來說事,這裡我們需要需要1.7萬個微網格、160萬個微三角形,在AdaLovelace架構中BVH創建速度可加快7.6倍,存儲空間縮小8.1倍。DisplacedMicro-MeshesEngine起到了關鍵性的作用,其將一個幾何物體根據不同細節分成密度不一的微網絡處理,紅色密度超高,細節處理越為複雜。相應的低密度微網絡區域則可以釋放更多的資源與存儲空間,這樣DisplacedMicro-MeshesEngine就可以幫助BVH加速過程,減少構建時間和存儲成本。
同時AdaLovelace架構SM中新增了着色器執行重排序(ShaderExecutionReordering,SER),這是由於光線追蹤不再只有強光或者陰影渲染處理,未來將會更多的是在光線的運動性,這樣光線就會變得越來越複雜,想要第三代RTCores與第四代TensorCores有着更高的執行效率,那就得為他們來安排一位管家。而着色器執行重排序(SER)就是為了能夠即時重新安排着色器負載來提高執行效率,為光線追蹤提供2倍的加速,也能更好地利用GPU資源。不過目前仍未有實例,想實現這個功能,還得遊戲與開發工具的支持才行。
第四代TensorCores
TensorCores是專門為執行張量/矩陣運算而設計的專用執行單元,這些運算是深度學習中使用的核心計算功能。第四代TensorCores新增FP8引擎,具有高達1.32petaflops的張量處理性能,超過上一代的5倍。
8技術講解:DLSS 3
技術講解:DLSS 3
或者說第四代TensorCores太硬核你不會知道是啥?提升意義在哪?但是TensorCores最經典的應用DLSS你肯定會知道,這一次AdaLovelace架構支持NVIDIA最新的DLSS3技術。
https://images.nvidia.cn/cn/youtube-replicates/r-hu006p23I.mp4
之前我們也聊過DLSS技術,其設計之初是為了彌補光線追蹤技術後的性能損失,具體的表現為開啟光線追蹤技術後遊戲幀數大幅度的下降,甚至很難保證遊戲流暢的運行。於是DLSS使用低分辨率內容作為輸入並運用AI技術輸出高分辨率幀,從而提升光線追蹤的性能。
在DLSS3中包含了三項技術:DLSS幀生成、DLSS超分辨率(也稱為DLSS2)和NVIDIAReflex。你可以理解為DLSS3是在DLSS2的基礎上,新增了DLSS幀生成技術;而後兩技術中,DLSS超分辨率只需要GeForceRTX顯卡都能使用上,NVIDIAReflex則是GeForce900系列以後的顯卡都用使用上。
想實現DLSS幀生成可不簡單,這需要配合上AdaLovelace架構的GeForceRTX40系列顯卡才行。DLSS幀生成技術原理是:利用AI技術生成更多幀,以此提升性能。DLSS會藉助GeForceRTX40系列GPU所搭載的全新光流加速器分析連續幀和運動數據,進而創建其他高質量幀,同時不會影響圖像質量和響應速度。
從Ampere架構開始,NVIDIA顯卡就已經支持了光流加速器,而AdaLovelace架構的光流加速器升級到了第二代,其提供了高達300TeraOPS(TOPS),比安培架構的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。為了實現DLSS幀生成,OFA扮演了重要的角色,其配合上新的運行矢量分析算法在DLSS3技術框架內實現精確和高性能的幀生成能力。
另外,由於DLSS幀生成是在GPU上作為後處理執行的,那麼即使在遊戲受到CPU性能限制的時候,我們同樣能夠從中獲得更好的遊戲性能提升。尤其是那種物理計算密集型的遊戲或大型場景遊戲,DLSS2均可以讓GeForceRTX40系列顯卡以高達兩倍於CPU可計算的性能來渲染遊戲。
最後由於DLSS3是建立在DLSS2基礎之上的,遊戲開發者可以在已支持DLSS2或NVIDIAStreamline的現有遊戲中快速集成該功能,所以DLSS3已在遊戲生態得到廣泛應用,目前已有超過35款遊戲和應用即將支持該技術。
閱讀小亮點:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一環,它可以使GPU和CPU同步,確保最佳響應速度和低系統延遲。
想要實現端對端的最低延遲,你需要確保遊戲、顯示器以及鼠標三者都同時支持並開啟了Reflex技術。
當GeForceRTX40系列顯卡和NVIDIAReflex搭配上後,直接達到1440p分辨率360FPS的體驗,這着實是性能有點強勁了。
在GTC2022大會時已經透露將會還有4款1440p分辨率的新型G-SYNC電競顯示器將要發佈,包括採用mini-LED技術的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款顯示器刷新率均為300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接來到了360Hz。
但唯一一個問題就在於,部分顯示器廠商認為此類產品受眾人群較少,會降低此類顯示器的產能,甚至產品就已經被內部PASS掉,所以1440p360Hz是很美好,但現實也是相當的骨感。
9技術講解:雙NVIDIA編碼器
技術講解:雙NVIDIA編碼器(NVENC)
GeForceRTX40系列顯卡還有一個全新的升級,那就是雙編碼器NVENC。第八代的NVENC雙編碼器不僅支持H.264與H.265,還支持開放式視頻編碼格式AV1。
而由於AV1是一種免版稅的視頻編碼格式,上游軟件廠商與下遊戲的配套端都在大力推廣此編碼格式,我們也會看到越來越多的硬件與軟件支持AV1格式,包括剪映專業版、DaVinciResolve、以及AdobePremierePro較為流行的Voukoder插件均支持,且均可通過編碼預設使用雙編碼器,這樣我們等待視頻導出的時間縮短將近一半。
不單是視頻製作軟件,AV1格式也將會是主播、遊戲直播UP主們的新寵兒,在保證畫面最高質量的情況下,AV1編碼器可將效率提高40%,同時顯卡的佔用也更低。包括OBSStudio一一代軟件中也會增加AV1格式的支持。另外我們還能通過GeForceExperience和OBSStudio錄製高達8K60的內容,這樣我們做遊戲錄製也會變得更為輕鬆。
包括我們之後測試時使用的遊戲內錄視頻都是支持AV1格式,同時雙編碼器NVENC在資源佔用和適配上做得越來越好。