英偉達,用AI掀翻光追遊戲天花板

作者 | ZeR0

編輯 | 漠影

本周三,遊戲顯卡的“新天花板”——GeForce RTX 40系列GPU——就要正式上市了。

自9月中旬正式發布後,英偉達RTX 40系列GPU帶來的性能提升一直備受關注。隨着近段時間相應測評成績陸續出爐,相信這個被稱作“遊戲玩家和創作者終極平台”的全新顯卡系列,在性能提升上給很多玩家留下了深刻印象。

刨去圍繞價格和功耗的爭議,如今RTX 4090已成當之無愧的新晉“卡皇”,論空前的算力、論堆滿的前沿技術,都做到了全面壓制同行競品:現代遊戲性能相較上一代RTX 3090 Ti提升最高達2倍,光線追蹤遊戲性能的提升最高達4倍。

就連次旗艦RTX 4080,也實現了比上一代旗艦顯卡RTX 3090 Ti更高的性能。用英偉達創始人兼CEO黃仁勛的話說,以前要花2000美元買到的性能,現在只用900美元就能買到。

有趣的是,這次RTX 40系列GPU實現性能、性價比飆漲的核心功臣,是英偉達近年來引以為傲的人工智能(AI)技術

以往,AI更多是英偉達數據中心產品線的主角,為何在主攻遊戲的消費級領域也開始凸顯AI的作用?在這背後,英偉達的雄心宏圖,已經透過遊戲,布向更廣闊的潛在AI應用未來。

一、幀率更高,AI補幀成“殺招”

說起RTX 40系列最惹人注目的技術上新,AI工具DLSS 3當仁不讓。

AI在遊戲領域的應用並不少見,從DeepMind研發的AlphaGo擊敗世界圍棋冠軍開始,AI陸續制霸國際象棋、日本將棋、星際爭霸、Dota 2、王者榮耀等棋牌及即時戰略遊戲。在遊戲開發領域,AI也逐漸承擔起寫台詞劇本、配音、翻譯到生成實時3D面部動畫等更具創造力的任務。

對於頂級遊戲大作而言,劇情、系統、關卡設計和視覺效果缺一不可。人們總在追求更高清的畫質、更絲滑的流暢度、更炫酷的特效、更仿真的場景……這些都是英偉達一直大力投入研發的方向,通過引入AI,優化PC遊戲的各種體驗。

其中極具開創性的DLSS 3(深度學習超級採樣)技術,正是拉開RTX 40系列與上一代性能差距的重要“殺器”。

上一代DLSS技術能夠做到從糊圖"腦補"出清晰圖,即讓AI通過分析低分辨率的當前幀和高分辨率的上一幀,預測出更高分辨率的當前幀大概是什麼樣子,然後生成高分辨率圖像,實現畫質提升。

畫質提升了,但幀率還是個棘手問題。

如果幀率提不上去,那就相當於裸眼看3D畫面PPT切換,視效再震撼,也會卡頓到令人失去耐心。英偉達新推出的DLSS 3技術,便是為了“補幀”而生。

DLSS 3直接做到“無中生有”,通過增加開創性的光學多幀生成技術,讓AI實時“腦補”出全新的完整高質量畫面,實現幀率翻倍。

英偉達測試顯示,在《賽博朋克:2077》這款經典的現代光線追蹤遊戲的overdrive模式、4K分辨率下,開啟光線追蹤時,如果同時開啟DLSS 3可使幀率達到100FPS。

由於DLSS生成幀在GPU上作為後處理執行,即便遊戲受CPU性能限制,比如《微軟飛行模擬》等物理計算密集型或大型場景遊戲,DLSS 3也能讓RTX 40系列GPU實現高達2倍於CPU可計算的性能來渲染遊戲。

藉助這個技術,英偉達RTX 40系顯卡能夠撐起大型遊戲的渲染需求,讓玩家們一邊享受到圖像質量改善帶來的震撼視效,一邊因幀數暴漲而玩得流暢度飛起,玩得更過癮。

DLSS 3的“補幀”原理並不複雜,但若具體拆解其所涉及的一系列技術,就不難理解為什麼率先做出這樣開創性的研發成果,還得看英偉達了。

二、摩爾定律"續航"不夠,還得AI來接班

應對摩爾定律放緩,英偉達近年的核心思路可以概括為一個詞:全棧

按照黃仁勛的說法,摩爾定律每一年半以一半成本提供相同性能的時代已經結束,晶體管密度增長帶動的算力性價比提升速度早已不及當年,工藝是在持續進步,但成本也上漲得多。

▲英偉達創始人兼CEO黃仁勛

以RTX GPU為例,從RTX 30系列到RTX 40系列,芯片製程工藝從三星8N工藝升級到更先進的台積電4N工藝,但據黃仁勛透露,這一升級只帶給RTX 40系列約15%的性能提升,其餘的性能提升來自像DLSS 3、Tensor Core、着色器執行重排序(SER)這樣的研發創新。

實現這些技術組合的關鍵槓桿,便是AI。

DLSS 3包括3個組件:深度學習超級分辨率(也就是之前的DLSS 2)、深度學習幀生成(就是DLSS 3中新加入的插幀)和降低PC延遲的Reflex。

其中,英偉達新一代Ada架構內置的光流加速器是支持實現DLSS 3的硬件核心之一,它能分析兩幀連續的遊戲圖像,並為神經網絡提供像素級幀到幀中物體和元素的運動方向和速度信息,知道在物體移動時應該如何正確地渲染光照和陰影。

另一個關鍵的架構創新,是Ada架構中擅長做矩陣運算的Tensor Core,它為加速AI計算提供了硬件基礎。英偉達稱RTX 40系顯卡中升級的第四代Tensor Core,新增了Hopper FP8 Transformer Engine,FP8處理性能高達1.4Petaflops,超過上一代顯卡的5倍。

DLSS超級分辨率技術用AI構建分辨率更高的圖像幀。綜合遊戲中的一對超分圖像幀、運動矢量、光流場信息後,將所有信息輸入到英偉達已經訓練好的卷積神經網絡AI幀生成器,經計算分析,AI幀生成器便可準確重建幾何圖形和效果,高效渲染生成出全新的高質量遊戲幀。

將DLSS生成的全新幀與DLSS超級分辨率幀相結合,就能用AI計算重建連續兩幀中高達7/8的像素,生成全新的高分辨率幀,然後將其插入到正常的遊戲畫面之間。與沒有DLSS相比,DLSS 3能將遊戲性能提升4倍。

考慮到插幀會帶來額外的延遲,英偉達還引入了Reflex低延遲技術,通過讓GPUCPU同步,消除GPU渲染隊列中的無用幀,來確保最佳響應速度。

雖說多幀生成技術靠“腦補”,並非傳統渲染那樣從建模貼圖到光照信息進行一系列的暴力計算,但因為有AI這一大殺器,插幀的效果足以亂真。

最終,影響遊戲體驗的三要素:流暢度、響應速度、畫質,全部得到保證。

逆水寒》《黑神話:悟空》《賽博朋克2077》等超過35款遊戲已經宣布即將支持DLSS 3,可以由RTX 40系列顯卡上的特定硬件加速提供支持,實現更絲滑的補幀效果。

回想最初DLSS推出時,遊戲和應用開發商的集成速度並不快。為了推進DLSS 3的迅速普及,英偉達還在4月推出了Streamline開源開發插件,使開發者可以很容易地以模塊化的方式在遊戲中添加各種新技術,顯著降低了新技術集成的難度。應用的門檻降低了,就會有越來越多的遊戲開發商選擇迅速擁抱新技術。

可以看到,AI技術已經跟英偉達的另一個“金字招牌”——硬件加速的實時光線追蹤——形成互補,進一步拉大英偉達旗艦級顯卡在領先性能上與其他顯卡之間的差距。

三、AI超級採樣+實時光追,敲開渲染創新之門

2018年,英偉達RTX系列的問世,正式開啟了實時光線追蹤時代。

光線追蹤是一種圖形渲染技術,會模擬計算環境中各種光源發出的光線經過反射、折射、陰影和間接照明,最終進入人眼時所呈現的光影效果,具有比傳統光柵化更高、更準確的視覺保真度,但也擁有更高的計算開銷,很吃硬件配置。

四年過去,像賽博朋克之類的現代遊戲對每個像素執行超過600次光線追蹤計算來確定光照,所需計算量提升高達16倍,但GPU中負責此類計算的晶體管數量的提升已經跟不上這一速度。

正是通過前文所述的,藉助AI計算一部分像素、預測大部分像素的策略,英偉達才做到4年內不斷將性能提升以滿足這一計算需求增長。

截至現在,近三年發布的光線追蹤遊戲已有280餘款。雖然如今新推出的各主流顯卡紛紛宣布支持光線追蹤,但絕大多數遊戲依然是混合渲染的模式,光追僅僅用來表現某些場景的光線特效,整體效果依然有非常大的提升空間。

既然遊戲中並不是完全的光線追蹤,那麼英偉達為何還要進行如此超前的技術布局呢?

正如黃仁勛所言,Ada架構引入的實時光線追蹤、AI超級採樣等前沿技術創新,都是在為完全基於仿真的未來遊戲鋪路。

回顧歷史,這其實是英偉達一貫的行事風格——如果需求尚不存在,那就去創造需求。

當英偉達發明可着色編程GPU時,GPU應用市場還相當沉寂;當英偉達創建世界上第一個3D電子遊戲平台時,電子遊戲市場很小;當英偉達提出一種新的計算方法“加速計算”,並為研發通用計算GPU和統一編程軟件CUDA而砸下重金時,鮮少有人相信它描繪的藍圖……

結果,歷史一次又一次地驗證了黃仁勛對未來市場趨勢的準確判斷和洞察。從遊戲顯卡到AI計算平台、元宇宙平台,英偉達一再“破圈”,通過軟硬件結合的全棧創新,不斷挖掘新的業務增長點,為其更長期的市場空間開疆闢土。

類似的,在優化實時光線追蹤體驗上,英偉達也在為長遠地培養生態優勢謀篇。

根據市場調研機構的數據,英偉達在獨立GPU市場的出貨量佔率高達8成,這使得其遊戲GPU的優勢滾雪球般形成正向循環——其光線追蹤遊戲的用戶越多,給出的反饋就越多,對此類遊戲的優化就會更友好,而遊戲優化體驗越好、適用性越廣、兼容和穩定性更強,用戶黏性就會越高。

等遊戲玩家們習慣了“AI超級採樣+實時光追”帶來的更有層次感的光影變化和絲滑的高幀率體驗,回過頭就很難再接受傳統渲染方式做出的生硬視覺效果了。屆時實時光追技術在遊戲領域的地位將從“聊勝於無”轉向“大殺四方”,英偉達在高端遊戲顯卡市場的話語權也將更加穩固。

正因如此,黃仁勛才對RTX 40系列有相當高的信心,稱這意味着“實時光線追蹤和利用AI生成像素的神經網絡渲染的新時代已然來臨”。

英偉達也在着力降低開發光追遊戲的門檻,同時對那些受人歡迎的老遊戲,提供了RTX化的可能。比如它為遊戲MOD打造了一款AI工具RTX Remix,以便將老遊戲快速光追化。

開發者可以用其AI輔助工具來提升紋理、素材的分辨率,或者把材質轉換為具有精確物理屬性的材質,同時呈現出逼真的光影效果,讓遊戲質感煥然一新。

隨着更多遊戲可以快速通過RTX Remix被“RTX化”,英偉達所看好的光追遊戲市場,有望得到加速開拓。

四、結語:不要低估英偉達

“過去十年是AI在算法發明方面的革命,未來十年是AI應用的十年。”在GTC主題演講中,黃仁勛談道,推動計算技術這枚火箭發展的引擎是加速計算,而燃料是AI。

十年前,加拿大多倫多大學Geoffrey Hinton教授的團隊用深度學習算法奪魁ImageNet大規模視覺識別競賽,由此開始掀起AI普及的狂瀾。而支撐這一突破性進展實現的硬件基礎,便是從圖形處理和遊戲發家的英偉達GPU。

今天,英偉達已經成長為AI計算領域公認的“頭號玩家”,但其所預見的AI應用潛在市場,遠比當前既有市場更為廣闊。從3D遊戲到元宇宙世界,AI有太多能大展拳腳的地方,AI任務愈發複雜,也就需要更強大的計算能力,這恰恰是英偉達技術及產品所擅長之處。

RTX 40系列GPU給AI驅動圖形處理打了個樣,通過一系列AI能力的加持,為優化計算圖形、改變遊戲體驗開闢一條新路。

長遠來看,英偉達在架構、設計、算法等技術創新上持續積澱的全棧優勢,將不斷推動其以更低價格提供更高遊戲性能,並為英偉達站在GPU金字塔尖傲視群雄提供長期的資本。