英偉達RTX 40系顯卡解析:出色工藝帶來出色性能,DLSS 3是殺手鐧

但是緊接著而來的便是全面提升的價格,尤其是80顯卡,相比較30系顯卡價格提升十分地明顯,那麼40系顯卡究竟為我們帶來了怎樣新的特性,這些功能值得消費者為其買單嗎?

Ada Lovelace晶元:全新的工藝,暴增的性能

首先我們來說一下這顆由首位女性程序員Ada Lovelace命名的架構。作為卡皇,RTX 4090顯卡的核心便是這顆AD102核心,整顆核心的面積為604.2平方毫米,相比較RTX 30系顯卡還有所減小,但是晶體管數量卻大幅提升,來到了763億顆。

在總體的架構上,Ada Lovelace似乎與安培相差不大,一個計算單元內包括FP32計算單元,FP32與INT32共享的計算單元以及第四代Tensor Core,同時也包括第三代的RT計算單元,讓深度學習以及光追更加高效。

總體規模上,Ada Lovelace與安培相比就有突飛猛進的提升,例如圖形處理集群從7個提升至12個,從而使得計算單元從84個飛躍至144個,也就是說一顆完整的Ada核心,它能夠提供最高18432顆流處理器,遠超GA102的10752顆。此外光追單元也從84個提升至144個,深度學習單元更是從336個提升至576個,頻率也從1.9GHz提升至2.5GHz。Ada晶元能夠有如此大的參數提升,最主要的原因便是製程的進步。在安培製程上,英偉達採用的是三星8nm製程,而到了Ada時代,則採用定製版的台積電4nm製程,晶體管密度的提升極其明顯,也讓晶元面積在有所減小的情況下晶體管數量還能增長如此兇猛。

除此之外,英偉達還表示在Ada GPU的能耗比是安培的2倍,著色器渲染能力達到了83TFLOPS,同樣是上代的兩倍,並且光追算力猛增至191TFLOPS,更是上代2.8倍。而與深度學習有關的FP8張量計算更是達到了恐怖的1.32PFLOPS,已經是上代核心的5倍。在遊戲方面,英偉達也稱Ada在光柵性能上是安培的2倍,而光追性能更是後者的四倍。

對於玩家來說,RTX 40系顯卡也大幅改善了運行時候的功耗表現,運行更加平穩,不會出現大規模的瞬時功耗提升,這對於想要添置大功率的玩家來說尤其重要。畢竟高端電源,多1W的供電,可能需要花費1.2甚至1.5元的預算。也正因為有了如此強大的計算性能,可以讓Ada GPU實現更多的工作,例如DLSS 3這一被老黃認為革命性的AI幀生成技術。

DLSS 3:讓AI生成幀,幀率大幅提升

DLSS是英偉達的深度學習抗鋸齒技術,藉助英偉達的AI神經網路減少GPU的畫面渲染,從而提升遊戲的畫面,自從圖靈架構開始,DLSS開始被消費者所認知。而這樣提升畫質的黑科技也經過了三代的更迭,初代DLSS藉助顯卡本身的AI驅動以及神經網路進行畫面的渲染,但是由於算力的限制,實際效果並不理想,儘管幀率有所提升,但是畫面卻異常模糊,特別是在一些動態畫面中更是如此。

第二代也就是目前最主流的DLSS 2.0時代,英偉達則選用了類似於DSR一樣的技術,先讓顯卡以較低的解析度進行渲染,隨後再藉助AI算力讓畫面變成高解析度進行輸出,當然相比較第一代DLSS,第二代DLSS無論是效果還是廠商接受度,都有著質的提升,並且消費者也越來越接受這項技術,此外友商也藉助FSR以及XeSS實現與DLSS類似的效果。而到了DLSS 3的時代,已經不滿足傳統圖形渲染的英偉達開始藉助AI來自己創建渲染圖像,通過插入到兩個渲染圖像之中,進一步降低GPU的渲染壓力。

首先英偉達在Ada GPU中加入一個叫光流加速器的硬體,而它也是實現DLSS 3的核心。首先藉助光流加速器,GPU分析畫面之中運動物體的矢量數據,再根據卷積神經網路讓AI自動渲染出遊戲畫面並插入到正常的遊戲畫面之中,這樣便可以有效地提升遊戲幀率,此外這種渲染方式也是遊戲渲染領域的首次應用,前提自然是40系龐大的Tensor Core計算集群。

英偉達表示,DLSS 3可以藉助AI最高渲染出7/8的顯示像素,在幀率上與不採用DLSS的遊戲相比,整整提升4倍。對於開啟光追特效的遊戲來說尤其有效。

例如在發布會上公布的《賽博朋克2077》便從22幀左右飛躍至90餘幀,甚至由於所有的圖像幀均在GPU上進行,並不經過CPU,因此即使你沒有一顆性能強勁的CPU,同樣可以讓遊戲幀率有著顯著的提升。

但是有人會擔心,由於採用的是AI渲染幀,並且插入到兩張正常的渲染幀之間,會不會造成畫面延遲上升,對於3A大作的玩家來說,延遲或許不是什麼問題,但是對於FPS玩家來說,延遲卻顯得更加重要。對此英偉達表示遊戲開發者以及遊戲玩家可以藉助NVIDIA Reflex,有效地降低遊戲的傳輸延遲,從而讓即使開啟DLSS 3特效的玩家也能享受理想的延遲。

當然DLSS 3並非所有的RTX顯卡都可以享受,由於缺少光流加速器,RTX 20以及RTX 30系顯卡直接和它說再見,此外英偉達也提供了一張關於DLSS的特效表格,其中AI渲染與插幀技術為RTX 40系顯卡獨享,而RTX 40/30/20系顯卡都支持原來的畫面縮放功能,至於NVIDIA Reflex,從GTX 900系顯卡就可以支持這項特效。目前已經有超過35款遊戲支持DLSS 3,將於10月份陸續和大家見面。

全新渲染引擎:圖形渲染更高效

伴隨著RTX顯卡的性能提升,尤其是擁有24GB龐大顯存的RTX 4090顯卡的出現以及NVIDIA Studio驅動的到來,越來越多的工作室開始購買GeForce遊戲顯卡作為圖像渲染卡,而英偉達也不斷地往遊戲顯卡中塞入全新的渲染引擎,讓這些專業工作者能夠擁有更加高效的圖形與畫面渲染。

這一次加入的引擎分別是Opacity Micromask引擎以及Micro-Mesh引擎,前者用於光追渲染,藉助這個引擎,光追中的Alpha-Test幾何性能最高提升2倍。而後者則是在不損耗存儲資源,並且採用簡易BVH的前提下,提升渲染畫面的豐富度,相比較過去,圖像的建模速度也有著巨大的提升,而這樣功能也獲得了Adobe等專業應用廠商的認可。

此外老黃還在RTX 40系顯卡中支持了著色器重排序,與CPU的亂序執行一樣,渲染任務隊列可以根據實際需求進行更換,從而大幅提升圖像的渲染效率以及GPU的利用率,換算到遊戲中,就是提升25%左右的遊戲性能,光追性能提升更是最高達到3倍。

目前伴隨著Nvidia Studio等驅動的應用,遊戲卡與專業卡之間的界限越來越模糊,而藉助最新的技術,專業用戶也能享受新一代GPU帶來的出色工作效率,畢竟RTX 4090不僅僅是玩家獨享的顯卡。

集成八代NVIDIA編碼器:視頻與直播用戶的最愛

目前直播以及視頻製作的興起也讓GPU應該有更多的編解碼性能,而英偉達這一次則在RTX 40系顯卡中加入了雙NVIDIA編碼器,使得視頻的輸出時間可以減少最多50%,同時也支持AV1編解碼,而像OBS、Blackmagic Design DaVinci Resolve等設計與直播軟體也加入了NVENC AV1編碼器,可以讓RTX 40系顯卡有著發揮的空間。

NVIDIA Broadcast軟體開發工具包增加了面部表情預估,眼神追蹤,以及虛擬綠幕質量改進三項功能,讓直播UP主直播起來更具沉浸感,當然對於會議用戶也是大有所益。

卡皇最具性價比

最後還是繞不開本次RTX 40系顯卡的核心爭議點那就是價格。由於更高的晶圓製造成本以及匯率,英偉達RTX 40系顯卡的建議零售價相比較RTX 30系有所提升也是在預料之內,但是出乎意料的是,沒想到這一次顯卡的價格提升幅度實在是讓消費者難以接受,RTX 4080 12GB售價為7199元,而RTX 4080 16GB售價為9499元,相比較RTX 3080 5499元的建議零售價來說實在是過於兇猛。而作為卡皇的RTX 4090反而是三款顯卡中最具性價比的一款,原因是12999元的建議零售價比上代提升了1000元,當然提升的性能幅度顯然對得起卡皇的售價。

而另外兩款就不一定了,RTX 4080 16GB採用9728個CUDA核心,搭載16GB GDDR6X顯存,性能相當於兩倍的RTX 3080 Ti,而RTX 4080 12GB則採用7680個CUDA核心,搭載的是12GB的GDDR6X顯存,性能也超過了RTX 3090Ti。在官方給出的遊戲表現中,在光柵遊戲下,RTX 4080 12GB與RTX 3090 Ti不相上下,部分遊戲略輸,而RTX 4080 16GB則比RTX 3090 Ti提升20%左右。

對於英偉達來說,顯然需要RTX 4080系列顯卡擁有一個強有力的表現,來讓消費者接納這兩款顯卡,畢竟經過了2年的礦潮,現在消費者的熱情已經來到了底谷,再想恢復並不是一件容易的事情。