英偉達RTX 40系顯卡解析：出色工藝帶來出色性能，DLSS 3是殺手鐧

分類：數碼

瀏覽數：1271

2022-09-28

但是緊接著而來的便是全面提升的價格，尤其是80顯卡，相比較30系顯卡價格提升十分地明顯，那麼40系顯卡究竟為我們帶來了怎樣新的特性，這些功能值得消費者為其買單嗎？

Ada Lovelace晶元：全新的工藝，暴增的性能

首先我們來說一下這顆由首位女性程序員Ada Lovelace命名的架構。作為卡皇，RTX 4090顯卡的核心便是這顆AD102核心，整顆核心的面積為604.2平方毫米，相比較RTX 30系顯卡還有所減小，但是晶體管數量卻大幅提升，來到了763億顆。

在總體的架構上，Ada Lovelace似乎與安培相差不大，一個計算單元內包括FP32計算單元，FP32與INT32共享的計算單元以及第四代Tensor Core，同時也包括第三代的RT計算單元，讓深度學習以及光追更加高效。

總體規模上，Ada Lovelace與安培相比就有突飛猛進的提升，例如圖形處理集群從7個提升至12個，從而使得計算單元從84個飛躍至144個，也就是說一顆完整的Ada核心，它能夠提供最高18432顆流處理器，遠超GA102的10752顆。此外光追單元也從84個提升至144個，深度學習單元更是從336個提升至576個，頻率也從1.9GHz提升至2.5GHz。Ada晶元能夠有如此大的參數提升，最主要的原因便是製程的進步。在安培製程上，英偉達採用的是三星8nm製程，而到了Ada時代，則採用定製版的台積電4nm製程，晶體管密度的提升極其明顯，也讓晶元面積在有所減小的情況下晶體管數量還能增長如此兇猛。

除此之外，英偉達還表示在Ada GPU的能耗比是安培的2倍，著色器渲染能力達到了83TFLOPS，同樣是上代的兩倍，並且光追算力猛增至191TFLOPS，更是上代2.8倍。而與深度學習有關的FP8張量計算更是達到了恐怖的1.32PFLOPS，已經是上代核心的5倍。在遊戲方面，英偉達也稱Ada在光柵性能上是安培的2倍，而光追性能更是後者的四倍。

對於玩家來說，RTX 40系顯卡也大幅改善了運行時候的功耗表現，運行更加平穩，不會出現大規模的瞬時功耗提升，這對於想要添置大功率的玩家來說尤其重要。畢竟高端電源，多1W的供電，可能需要花費1.2甚至1.5元的預算。也正因為有了如此強大的計算性能，可以讓Ada GPU實現更多的工作，例如DLSS 3這一被老黃認為革命性的AI幀生成技術。

DLSS 3：讓AI生成幀，幀率大幅提升

DLSS是英偉達的深度學習抗鋸齒技術，藉助英偉達的AI神經網路減少GPU的畫面渲染，從而提升遊戲的畫面，自從圖靈架構開始，DLSS開始被消費者所認知。而這樣提升畫質的黑科技也經過了三代的更迭，初代DLSS藉助顯卡本身的AI驅動以及神經網路進行畫面的渲染，但是由於算力的限制，實際效果並不理想，儘管幀率有所提升，但是畫面卻異常模糊，特別是在一些動態畫面中更是如此。

第二代也就是目前最主流的DLSS 2.0時代，英偉達則選用了類似於DSR一樣的技術，先讓顯卡以較低的解析度進行渲染，隨後再藉助AI算力讓畫面變成高解析度進行輸出，當然相比較第一代DLSS，第二代DLSS無論是效果還是廠商接受度，都有著質的提升，並且消費者也越來越接受這項技術，此外友商也藉助FSR以及XeSS實現與DLSS類似的效果。而到了DLSS 3的時代，已經不滿足傳統圖形渲染的英偉達開始藉助AI來自己創建渲染圖像，通過插入到兩個渲染圖像之中，進一步降低GPU的渲染壓力。

首先英偉達在Ada GPU中加入一個叫光流加速器的硬體，而它也是實現DLSS 3的核心。首先藉助光流加速器，GPU分析畫面之中運動物體的矢量數據，再根據卷積神經網路讓AI自動渲染出遊戲畫面並插入到正常的遊戲畫面之中，這樣便可以有效地提升遊戲幀率，此外這種渲染方式也是遊戲渲染領域的首次應用，前提自然是40系龐大的Tensor Core計算集群。

英偉達表示，DLSS 3可以藉助AI最高渲染出7/8的顯示像素，在幀率上與不採用DLSS的遊戲相比，整整提升4倍。對於開啟光追特效的遊戲來說尤其有效。

例如在發布會上公布的《賽博朋克2077》便從22幀左右飛躍至90餘幀，甚至由於所有的圖像幀均在GPU上進行，並不經過CPU，因此即使你沒有一顆性能強勁的CPU，同樣可以讓遊戲幀率有著顯著的提升。

但是有人會擔心，由於採用的是AI渲染幀，並且插入到兩張正常的渲染幀之間，會不會造成畫面延遲上升，對於3A大作的玩家來說，延遲或許不是什麼問題，但是對於FPS玩家來說，延遲卻顯得更加重要。對此英偉達表示遊戲開發者以及遊戲玩家可以藉助NVIDIA Reflex，有效地降低遊戲的傳輸延遲，從而讓即使開啟DLSS 3特效的玩家也能享受理想的延遲。

當然DLSS 3並非所有的RTX顯卡都可以享受，由於缺少光流加速器，RTX 20以及RTX 30系顯卡直接和它說再見，此外英偉達也提供了一張關於DLSS的特效表格，其中AI渲染與插幀技術為RTX 40系顯卡獨享，而RTX 40/30/20系顯卡都支持原來的畫面縮放功能，至於NVIDIA Reflex，從GTX 900系顯卡就可以支持這項特效。目前已經有超過35款遊戲支持DLSS 3，將於10月份陸續和大家見面。

全新渲染引擎：圖形渲染更高效

伴隨著RTX顯卡的性能提升，尤其是擁有24GB龐大顯存的RTX 4090顯卡的出現以及NVIDIA Studio驅動的到來，越來越多的工作室開始購買GeForce遊戲顯卡作為圖像渲染卡，而英偉達也不斷地往遊戲顯卡中塞入全新的渲染引擎，讓這些專業工作者能夠擁有更加高效的圖形與畫面渲染。

這一次加入的引擎分別是Opacity Micromask引擎以及Micro-Mesh引擎，前者用於光追渲染，藉助這個引擎，光追中的Alpha-Test幾何性能最高提升2倍。而後者則是在不損耗存儲資源，並且採用簡易BVH的前提下，提升渲染畫面的豐富度，相比較過去，圖像的建模速度也有著巨大的提升，而這樣功能也獲得了Adobe等專業應用廠商的認可。

此外老黃還在RTX 40系顯卡中支持了著色器重排序，與CPU的亂序執行一樣，渲染任務隊列可以根據實際需求進行更換，從而大幅提升圖像的渲染效率以及GPU的利用率，換算到遊戲中，就是提升25%左右的遊戲性能，光追性能提升更是最高達到3倍。

目前伴隨著Nvidia Studio等驅動的應用，遊戲卡與專業卡之間的界限越來越模糊，而藉助最新的技術，專業用戶也能享受新一代GPU帶來的出色工作效率，畢竟RTX 4090不僅僅是玩家獨享的顯卡。

集成八代NVIDIA編碼器：視頻與直播用戶的最愛

目前直播以及視頻製作的興起也讓GPU應該有更多的編解碼性能，而英偉達這一次則在RTX 40系顯卡中加入了雙NVIDIA編碼器，使得視頻的輸出時間可以減少最多50%，同時也支持AV1編解碼，而像OBS、Blackmagic Design DaVinci Resolve等設計與直播軟體也加入了NVENC AV1編碼器，可以讓RTX 40系顯卡有著發揮的空間。

NVIDIA Broadcast軟體開發工具包增加了面部表情預估，眼神追蹤，以及虛擬綠幕質量改進三項功能，讓直播UP主直播起來更具沉浸感，當然對於會議用戶也是大有所益。

卡皇最具性價比

最後還是繞不開本次RTX 40系顯卡的核心爭議點那就是價格。由於更高的晶圓製造成本以及匯率，英偉達RTX 40系顯卡的建議零售價相比較RTX 30系有所提升也是在預料之內，但是出乎意料的是，沒想到這一次顯卡的價格提升幅度實在是讓消費者難以接受，RTX 4080 12GB售價為7199元，而RTX 4080 16GB售價為9499元，相比較RTX 3080 5499元的建議零售價來說實在是過於兇猛。而作為卡皇的RTX 4090反而是三款顯卡中最具性價比的一款，原因是12999元的建議零售價比上代提升了1000元，當然提升的性能幅度顯然對得起卡皇的售價。

而另外兩款就不一定了，RTX 4080 16GB採用9728個CUDA核心，搭載16GB GDDR6X顯存，性能相當於兩倍的RTX 3080 Ti，而RTX 4080 12GB則採用7680個CUDA核心，搭載的是12GB的GDDR6X顯存，性能也超過了RTX 3090Ti。在官方給出的遊戲表現中，在光柵遊戲下，RTX 4080 12GB與RTX 3090 Ti不相上下，部分遊戲略輸，而RTX 4080 16GB則比RTX 3090 Ti提升20%左右。

對於英偉達來說，顯然需要RTX 4080系列顯卡擁有一個強有力的表現，來讓消費者接納這兩款顯卡，畢竟經過了2年的礦潮，現在消費者的熱情已經來到了底谷，再想恢復並不是一件容易的事情。

數碼分類資訊推薦