機器之心報道
編輯:澤南、杜偉
最高端的 RTX4090 性價比最高,你沒想到吧?
雖然因為產品太貴而被吐槽,但提起最強 AI 芯片、高端遊戲 GPU,人們還是首先要看英偉達。9 月 20 日晚,GTC 大會在線上召開,萬眾期待的 RTX 40 系列顯卡終於正式發布了。
與以往稍有不同,這場重要的 Keynote 顯得樸實無華而且「簡短」,黃仁勛直接站在空曠的元宇宙里開講:
一個半小時收工。
在這場活動中,英偉達展示了 RTX、AI 芯片和元宇宙產品線 Omniverse 的最新進展,還包括它們對人工智能領域新突破的幫助,以及大量應用落地。
在一切開始之前,老黃先展示了一段全可交互的模擬環境 RacerX,它用 Omniverse 構建,物理材質特性、光線追蹤、煙霧火焰一個不少。最重要的是「全部沒有預渲染過,是跑在單塊 GPU 上的」:
黃仁勛說,全部實時處理,這才是未來遊戲的該有的樣子。
能跑得起 RacerX 的肯定是最新 RTX 40 系顯卡,AMD 也要發布新一代 GPU 了,英偉達這次會保持領先嗎?如果 N 卡性能更強,代價是什麼?
RTX 40 系列 GPU:性能翻倍,光追能力翻倍
這就是英偉達的第三代 RTX 顯卡,採用全新的 Ada Lovelace 架構。
英偉達轉投台積電後,使用定製版 4N 製程加成的 RTX40 系 GPU 被塞進了 760 億個晶體管,比上一代 Ampere 多了 70%。
25 年前,英偉達推出了可編程着色的 GPU,徹底改變了計算機 3D 圖形的世界。到 2018 年,英偉達推出 RTX 架構,新增的 RT Core 用於加速實時光線追蹤,Tensor Core 用於處理矩陣運算,又實現了前所未有的效果。在剛剛推出的 Ada Lovelace 架構中,三種處理器均有改進和提升,其中:
1、SM 流處理器新增着色器重排序執行能力(Shader Execution Recording),可以實時重新調度任務,把光追速度提升 2-3 倍,在 4090 上能輸出 90TFLOPS,性能較上代提升兩倍。
2、第三代 RT Core 實現了兩倍的光線與三角形求交性能,全新的 Opacity Micromap 引擎可以把 Alpha-test 幾何性能提升 2 倍,Micro-Mesh 引擎可提升幾何圖形的豐富度,而不會帶來 BVH 構建和存儲資源的更多消耗。
3、新的第四代 Tensor Core 可以實現 1.4 petaFLOPs 算力,AI 性能翻倍。
「Shader Execution Recording 和當年的 CPU 亂序執行一樣,是一項重大創新,」黃仁勛說道。「光線追蹤很難並行處理,而 GPU 具有高度並行性,SER 通過即時重新安排着色器負載來提升效率,可以提升 2 到 3 倍光追性能,遊戲性能提升 25%。」
但我們知道,光線追蹤曾經被英偉達前首席科學家 David Krik 說成是「永遠不會到來」的技術,性能翻倍也不能讓 GPU 保證在如今的各種大型單機遊戲中保持高幀率,這個時候就需要 AI 算法了。
DLSS 使用卷積自動編碼器 AI 模型,可以在 GPU 輸出的低分辨率畫面基礎上自動腦補出高分辨率,大幅降低性能需求。英偉達在 Ada 架構中引入了 DLSS 3,其可以在分辨率提升的同時自動補幀。DLSS 3 包含四個組件:新的光流加速器、遊戲引擎運動矢量、卷積自動編碼 AI 幀生成器和 Reflex 低延遲流水線。
DLSS 3 同時處理當前幀和上一幀,光流加速器為神經網絡提供運動方向和速度信息,結合圖形和像素的運動矢量,輸入神經網絡就可以生成中間幀了。
「DLSS 3 在不涉及圖形管線處理的前提下生成全新幀,相較於單純的渲染可以將性能提升多至 4 倍,」黃仁勛表示。「而且不論 CPU 還是 GPU 有瓶頸的遊戲都可以從中受益。」
英偉達展示了開 DLSS 3 的賽博朋克 2077、微軟模擬飛行等遊戲的運行效果:
4 年來,RTX 的數據量提升了 16 倍,現在的一些像素是計算得出,大多數是 AI 推測出來的。
在演示中,幾個遊戲都是幀數直接乘以二。但值得注意的是,DLSS 3 和新硬件特性高度綁定,30 和 20 系的用戶無法享受這樣的性能。
英偉達公布了 40 系顯卡的多項常規硬件規格:RTX 4090 採用 AD102 GPU,擁有 16384 個 CUDA 核心和 24GB GDDR6X 顯存,默認 TDP 為 450W;RTX 4080 16GB 版擁有 9728 個 CUDA 核心,TDP 為 320W;RTX 4080 12G 版擁有 7680 個 CUDA 核心,TDP 為 285W。從功耗上看,從三星 8nm 換到台積電 4N 工藝效率提升顯著,同級性能提升了,電源要求沒有提升。
性能相比上代提升了多少?通過 SER 優化、更大規模芯片,再加上芯片加速頻率從 1.7GHz 提升到 2.52GHz,綜合起來可以讓 RTX 4090 相比 3090Ti 性能翻一倍;如果看光線追蹤,性能則提升了 4 倍。黃仁勛表示,Ada 的同功耗性能是 Ampere 的兩倍。
再往下,RTX 4080 可在開 DLSS 時達到 3080Ti 的兩倍性能。
最後是價格:RTX 4090 公版售價 1599 美元,10 月 12 日開始售賣;RTX 4080 16GB 售價 1199 美元,12GB 版售價 899 美元。
總結一下就是 90 的價格幾乎沒漲,80 的價格漲了 500 美元。對於國內用戶來說,RTX 40 系的售價是這個樣子:4090 12999 元起,4080(16GB)9499 元,4080(12GB)7199 元。
看起來非公版的 RTX 4090 價格將在 15000 左右。
不過,這一代顯卡有個需要注意的地方:看起來 12G 版的 4080 似乎是把原定的 70Ti 改了名字。
英偉達 Omniverse 連接了 3D 世界
除了 GPU 和 AI,英偉達也是元宇宙的引領者,黃仁勛介紹了 Omniverse 的一系列進步。
Omniverse 是英偉達構建和運行元宇宙應用的平台,在數字和現實世界交匯之處產生作用。Omniverse 還是一個實時的大型 3D 數據庫,構建一個可共享的 3D 世界。Omniverse 更是一個計算平台,你可以編寫在其上運行的應用,這些應用成為進入虛擬世界的門戶。
今日,黃仁勛發布了關於其 Omniverse 平台的一系列重大更新,它支持了 Ada Lovelace GPU,在光線追蹤和大型場景性能方面實現巨大飛躍。
首先是基於 GAN 和擴散模型的新型神經渲染工具。OmniGraph 是一個圖形渲染引擎,通過程序化的方式控制行為、動作和行動。
其次是 Omniverse Physics 的重大更新,它可以用來處理複雜的多連接部件對象的運動情況。
然後是全新的 Cloud XR,支持在 VR 中實現 Ada 的強大光線追蹤功能。還有首個用於數據生成和數字孿生模擬的 SimReady 素材庫。
Replicator 是備受青睞的 Omniverse 應用之一,用來生成合成數據,從而訓練自動駕駛汽車、機器人和各種計算機視覺模型。最後是新的 Omniverse JT 連接器,它是一款大型應用,使得工業和製造業可以運用 Omniverse。
可以這麼說,Omniverse 是一個企業平台,適用於從產品設計和造型到工程策劃、製造、營銷和運營的整個產品生命周期。正如互聯網連接了各個網站,Omniverse 連接了 3D 世界。
黃仁勛在會上了展示了一些公司利用 Omniverse 為工廠、物流倉庫、自動化生產線和工業廠房創建數字孿生的情況。我們可以從以下一些場景案例中探知一二。
Omniverse 計算平台由三部分組成:RTX 計算機,供創作者、設計師和工程師使用;OVX 服務器,用來託管與 Nucleus 數據庫的連接並運行虛擬世界模擬;NVIDIA GDN,進入 Omniverse 的門戶。
通過 GeForce Now,英偉達構建了一個全球圖形交付網絡(即 GDN)。該網絡覆蓋了 100 個地區,提供響應靈敏的超快 RTX 圖形內容交付網絡(即 CDN),高效串聯互聯網視頻。而 NVIDIA GDN 能夠高效串聯交互式圖形,並結合 NVIDIA RTX PC、雲端的 NVIDIA GPU 打造覆蓋全球的 Omniverse 計算平台。
NVIDIA Omniverse Cloud 則是一套軟件和基礎設施即服務套件,用於隨時隨地在任何設備上設計、發布和體驗元宇宙應用。黃仁勛在會上展示了超級跑車和高級電動車解決方案的先行者 Rimac 公司,以及它是如何利用 Omniverse Cloud 為 3D 團隊實現協作工作流,並為用戶提供先進的 3D 體驗。
黃仁勛表示,NVIDIA Omniverse Cloud 是一款 IaaS 產品,可以連接在雲上、本地和單個設備上,運行 Omniverse 應用。Replicator 和 Farm 也可以在雲上運行,其中 Farm 是渲染農場的擴展引擎。目前,用戶可以在 AWS 上使用 Replicator 和 Farm 容器。
新一代自動駕駛芯片 Drive Thor
在自動駕駛領域,車企都需求更強的算力,而英偉達產品的每代性能都要翻倍。
當前,智能機器開發掀起了一波 AI 浪潮,深度學習的參與更為系統能力的提升打開了新的大門。從軟件的開發方式到運行方式,一切都變得截然不同。因此,打造新一代處理器勢在必行。英偉達 Xavier 是世界上第一款專為深度學習設計的自動駕駛超級芯片,之後每兩年便在處理器性能上完成一次巨大飛躍。
同時,為了拓展自動駕駛領域,提升駕駛的安全性,傳感器在數量和分辨率上面臨同步增長。同時引入更複雜的 AI 模型,所有這些因素都驅使英偉達不斷提升性能。
2021 年,英偉達推出了 1000 TOPS 的 SoC——Atlan。今天,黃仁勛表示它的位置已被 Thor 取代。Thor 的吞吐量是 Atlan 的兩倍,交付性能也是 Atlan 的兩倍以上。實現這些目標離不開三個因素:Grace、Hopper 和 Ada Lovelace,其中 Grace 提供了令人驚嘆的 Transformer 引擎、ViT 的快速變革,Ada 中的多實例 GPU 有助於車載計算資源的集中化,將成本降低數百美元。
Nvidia Drive Thor 採用很多新技術,它可以被配置為多種模式,將其 2000 TOPS 和 2000 TFLOPs 全部用於自動駕駛工作流。同時可以將其配置為一部分用於駕駛艙 AI 和信息娛樂,一部分用於輔助駕駛。Thor 中的多計算域隔離允許並發、對時間敏感的多進程無中斷運行。你可以在一台計算機上同時運行 Linux、QNX 和 Android。
此外,Thor 還集中了眾多計算資源,降低成本與功耗的同時實現功能飛躍。目前,汽車的停車、主動安全、駕駛員監控、攝像頭鏡像、集群和信息娛樂均由不同的計算設備控制。而未來,這些功能將不再由單獨的計算設備控制,而是由在 Thor 上運行、並隨時間推移不斷改進的軟件統一控制。
Thor 芯片預計 2025 年上車使用。
NVIDIA Drive 是一個面向自動駕駛汽車開發與部署的端到端平台,在開發方面包含了 Replicator 合成數據生成、Drive Sim 和 Drive Map,在部署方面包含了全棧駕駛和車內 AI 應用、AI 計算機和 Hyperion 自動駕駛汽車參考架構。
NVIDIA Drive 迎來了一系列功能更新,首先是名為 Neural Reconstruction Engine 的 AI 工作流,已成為了 Drive Sim 的一項主要功能。它可以根據記錄的傳感器數據構建 3D 場景,在將 3D 場景導入 Drive Sim 之後通過人工創建或 AI 生成的內容對其進行增強。另外,這個從視頻到 3D 幾何圖形的工作流可以在 OVX 系統上運行。
從視頻到 3D 工作流的動態展示。
Drive Sim 的另一項重要功能是硬件在環,意味着我們可以在 AI 工廠運行整個車載軟件棧。它還可以模擬車內環境,未來的汽車不僅有簡單的儀錶板,還有將數字設計與物理設計相結合的環繞顯示屏,這樣汽車工程師、軟件工程師和電子工程師可以在 Drive Sim 中展開協作,同時運行所有的實際計算機與軟件棧。
Drive Sim 成為了虛擬設計工作室。
此外,英偉達還在開發 Drive 端到端自動駕駛系統的其他方面取得了出色進展,比如 Replicator 合成數據生成、AI 模型改進、Drive Map 自動駕駛車隊地圖構建、城市和高速公路駕駛及停車。
Drive Map 的自動駕駛車隊地圖構建。
全新微型機器人系統級模塊
Drive Orin 是英偉達推出的第二代自動駕駛汽車計算芯片,目前看來非常成功,已經被 40 多家汽車、卡車和無人駕駛出租車使用。Jetson 是英偉達的機器人計算機,擁有 100 萬開發者,使用的公司約為 6000 家。
今日的 GTC 大會上,黃仁勛宣布推出一款微型機器人系統級模塊芯片 Jetson Orin Nano,它的速度較之前的 Jetson Nano 快了 80 倍。Jetson Orin Nano 可以運行 NVIDIA Isaac 機器人堆棧,並具有 ROS 2 GPU 加速框架。
黃仁勛還介紹了其邊緣 AI 平台 Metropolis,它可解讀攝像頭、激光雷達和其他物聯網傳感器的數據,提高倉庫、工廠、零售商店和城市的安全性與效率。
從工業到科研,自動駕駛到元宇宙,英偉達的業務早已從 GPU 拓展到了無數領域,並在很多地方都有引領地位。對於普通消費者來說,顯卡也早已不是玩遊戲用的了。
現在,新一代 GPU 已經推出,你會選擇降價後的 RTX30,還是買新不買舊呢?