在今年1月8日的ces上,nvidia共發布了rtx 4070 super、rtx 4070 ti super以及rtx 4080 super三款顯卡。今天先為大家帶來nvidia geforce rtx 4070 super顯卡的評測。
nvidia geforce rtx 4070 super國內建議售價為4899元起,相比rtx 4070貴了100元。不過官方的建議售價,這兩款顯卡都是599美元,這100元的差價來自匯率。
提到super系列顯卡,最近的只有rtx 20系,兩個super系列在性能上都有大幅提升。所以趁著這次super系列的發布,也能夠拉通一下性能,讓整體rtx 40系更划算。
本次msrp版rtx 4070 super在1月16日晚22:00解禁,而各oc版顯卡則在1月17日晚22:00解禁,也請大家留意後續的評測。
英偉達geforce rtx 40 super系列現已上市,請到京東diy super超能年貨節上選購geforce rtx 4070 super/80 super 公版和合作夥伴顯卡
1 nvidia geforce rtx 4070 super fe概覽
首先還是來看下外觀,本次nvidia geforce rtx 4070 super顯卡的外包裝依舊採用了黑色掀蓋的禮盒式包裝,不過連同字體和logo全部變為了黑色,只有在不同光線下才能看到字體。
打開後顯卡周圍的裝飾紋路自帶「震驚」效果,卡身半鑲嵌在包裝盒內,更利於收藏和展示,而且與最早rtx 40系fe版不同的是,這張rtx 4070 super的金屬邊框以及字體同樣為黑色,看上去更神秘。
本次rtx 4070 super包裝內附贈的是一根16pin轉雙8pin的轉接線。
nvidia geforce rtx 4070 super顯卡的整體尺寸約為267×112×42mm(不含擋板),佔用2槽空間。
nvidia geforce rtx 4070 super顯卡整體來說外觀變化不大,但通過上面兩張圖對比可以看到,fe版主要在金屬框架及字體上有所區別。
nvidia geforce rtx 4070 super風扇尺寸相比rtx 30系增大,基本已經達到了顯卡整體框架的直徑,而在散熱風扇增大的基礎上,最大氣流動態增加20%,同噪音等級的氣流動態增加15%。
nvidia geforce rtx 4070 super同樣採用了正反亮面雙風扇的設計,背部全部為裸露的散熱鰭片,而且在金屬框架上還能夠看到「rtx 4070 super」的字樣。
雖然整體設計沒有變,但本次super系列改用的黑色金屬框架,依然如藝術品一樣精緻美觀。
視頻輸出介面上,依舊採用了hdmi 2.1 + dp 1.4a*3的四介面設計。
另外由於公版採用的雙軸流散熱系統,所以在視頻輸出介面部位能夠看到大量的散熱鰭片,這一點與上一代相同。
本次nvidia geforce rtx 4070 super fe版的整卡功耗為220w,採用單16pin的輔助供電,推薦電源650w及以上。
2 nvidia geforce rtx 4070 super 架構淺析
本次發布的geforce rtx 40系顯卡由全新的nvidia ada lovelace架構打造,採用tsmc 4n nvidia定製工藝,旗艦核心ad102達到了的760億個晶體管,而在rtx 30系顯卡中為280億個。
與上一代nvidia ampere相比,nvidia ada lovelace在相同功率下,具有2倍以上的性能提升,最高可達到90-tflops的著色器數據吞吐量。
本次發布的rtx 4070 super共有7168個cuda核心,提供了35.5-tflops算力;56個第三代ada rt core擁有82.1 rt-tflops;224個第四代tensor core可提供568 tensor-tflops(ai tops)。
rtx 4070 super的l2 cache容量為48mb,帶寬為504 gb/s。nvidia官方也特別表明了l2 cache的重要性,我們以兩張圖來簡單說明l2緩存的作用。
在真正的gpu中,內核是所有計算髮生的地方,而這就是l1數據緩存的作用所在。每個sm都有一個超低延遲的l1數據緩存,緊挨其處理內核,使l1成為gpu尋找信息的首選。然而由於l1緩存需要離內核非常近,不可能非常大。
如果在l1緩存中找不到內核計算所需的數據,gpu將在l2數據緩存中尋找。這個顯存系統位於gpu晶元上,並通過一個非常高速的橫樑系統連接到所有的gpc(圖形處理集群),每個gpc包括多個sm。如果在l2緩存中找到了信息,那麼gpu就挑出這些數據並將其放入內核。
如果在l2緩存中找不到信息(被稱為緩存缺失),那麼gpu將通過顯存介面在vram中尋找。這在整個gpu存儲子系統中產生了很多額外的工作量,並降低了性能和功耗效率。
更多詳細的參數,我們為大家總結出了一張表格,可以看到從各方面的規格來說,這張rtx 4070 super更接近於rtx 4070 ti,但功耗相比rtx 4070隻提升了20w。
另外最主要的價格方面,相比rtx 4070的建議售價只貴了100元,下面我們直接看測試成績。
3 測試平台簡介
首先介紹一下測試平台,為了保障nvidia geforce rtx 4070 super的性能發揮,我們的平台也進行了全面更新。
雖然rtx 4070 super推薦電源僅為650w,但考慮為顯卡和cpu滿載,以及方便後續硬體升級,電源的選購建議留出20%-30%的冗餘。鑫谷崑崙mu-850g電源採用atx3.0規範打造,擁有850w額定功率並通過80plus金牌認證,配備原生12vhpwr顯卡供電介面,無需轉接安全穩定。同時,這款電源採用高品質全日系電容和llc pro+dc-dc純血架構,帶來強大的動態超載性能,防止大功率pc因為過載導致藍屏、重啟等情況。
有了高性能cpu和顯卡,機箱散熱也要跟上,同時還要兼顧美觀和耐用。鑫谷無界1機箱,正面和側面採用4mm高透鋼化玻璃,270°廣角營造出真正的「海景房」效果,不僅能實時監測硬體的運行情況,搭配rgb燈效配件「光污染」效果一流;散熱方面,配備9個風扇位,並支持240/360mm水冷散熱器,同時還配備手辦專屬展台,讓你的機箱每天都賞心悅目。值得一提的是,這款機箱採用コ型力學支撐結構搭配高強度五金配件,帶來強大承重性,即使無立柱也穩固不變形。
目前最新的gpu-z為2.56版本,能夠識別到顯卡的一些基礎規格,但晶元本身還沒識別到。
nvidia geforce rtx 4070 super擁有7168個cuda,boost頻率為2475mhz,與rtx 4070相同,但基礎頻率稍高。
採用12gb gddr6x顯存,位寬為192bit,顯存帶寬504 gb/s,光柵單元和紋理單元為80和224。
4 理論性能測試
本次測試nvidia geforce rtx 4070 super主要對比它的上下型號,rtx 4070 ti、rtx 4070以及上一代rtx 3070。
下面先進行的是用來衡量顯卡dx11理論性能的3dmarkfs套裝:fs,fse,fsu三者分別對應顯卡在1080p、2k、4k的理論性能,取顯卡分數實際測試結果如下:
在fs測試中,nvidia geforce rtx 4070 super相比rtx 4070,其中fs提升18%;fse提升19%;fus提升25%,綜合提升21%。對比rtx 4070 ti,綜合成績相差3%左右。
而在針對dx12環境下的time spy和time spy extreme測試中,nvidia geforce rtx 4070 super相較rtx 4070的提升分別為:ts提升18%;tse提升18%,綜合約為18%。對比rtx 4070 ti,綜合成績相差5%左右。
portroyal是3dmark中專門針對光追性能的測試項,nvidia geforce rtx 4070 super相較rtx 4070的提升約為17%。對比rtx 4070 ti,相差4%左右。
下面我們再來看看3dmark中新增的一些具體應用場景的測試。
speed way這項測試結合了實時光線追蹤和傳統渲染技術來測量顯卡性能。場景含有光線追蹤反射、實時全局光照、網格著色器、體積照明、粒子和後處理效果。所以sw的測試基本可以看做次世代3a遊戲基準。
nvidia geforce rtx 4070 super對比rtx 4070,從1080p解析度到4k提升依次為:18%/17%/17%。
而對比rtx 4070 ti的成績幾乎持平,差距不超過1%,甚至在1080p解析度中反超。雖然差距不大,可以看做誤差,但整體來看,這張rtx 4070 super基本有著媲美rtx 4070 ti的性能。
另外我們使用3dmark剛剛更新的dlss 3進行了相關性能測試。
nvidia geforce rtx 4070 super在2k解析度下dlss開關相比rtx 4070的提升為15%/20%;4k解析度,提升約為16%/22%。
從整體的理論測試成績來看,傳統的fs/ts/pr三項測試,nvidia geforce rtx 4070 super相比rtx 4070綜合提升約為19%左右;相比rtx 4070 ti的差距在3%左右,而最新的sw綜合測試也基本呈現相同的結果。
而對比rtx 3070來看,綜合傳統的fs/ts/pr以及次世代場景sw的測試,綜合提升在50-55%左右。
雖然我們的測試平台經過更新,從13900k升級到14900k,但看過cpu測試的朋友一定都知道14代酷睿的拉胯,而且我們的理論測試僅選擇顯卡本身的分數,物理分數沒有計算在內。
5 《燕雲十六聲》遊戲測試
本次我們還測試了網易最新的《燕雲十六聲》,不過目前該遊戲尚未公測,所有測試數據僅供參考。
《燕雲十六聲》是一款具有中國獨特武俠情懷的開放世界rpg遊戲,會劃分單人模式和多人模式,全平台發布。
遊戲提供了豐富的捏臉系統,不過目前內測階段尚無女性角色。
另外遊戲內融入了大量中國風元素,玩家可以根據遊戲內發現的要素解鎖對應的歷史文獻,做到真正的寓教於樂。
不僅如此,除了遊戲環境中的古風元素,在boss設定上頗為考究,新手村外的皮影師堪稱我們國產遊戲的「大樹守衛」,在簡單嘗試了幾次後還是敗下陣來。
而令人驚艷的還有《燕雲十六聲》出彩的畫面,在同一地方不同時間拍下來的照片,不僅僅是環境光簡單的變化,各種氛圍的渲染也會隨著時間不同而風格迥異。
目前《燕雲十六聲》已經在內測版本中支持dlss 3技術,下面來看看使用nvidia geforce rtx 4070 super的實際幀數測試。
從表中不難看出,dlss 3對於遇到cpu瓶頸的低解析度提升明顯,其中1080p解析度下提升達到73%,而2k和4k分別為43%/21%。
另外遊戲在cpu瓶頸當中,dlss 2的加成作用則較為受限,但相比dlss關,依然能有不錯的幀數。
在dlss 3的詳細測試中,我們選擇rtx 4070 super的主要遊戲場景2k解析度。其中dlss 2相比dlss關的提升為25%;而dlss 3相比dlss關的提升達到了93%,非常驚人。
6 常規遊戲 性能測試
由於本次rtx 40系加入了dlss 3新技術,所以後面會進行單獨測試,這裡依然選擇主流的幾款3a大作進行遊戲性能對比。
在《極限競速:地平線5》中,其中nvidia geforce rtx 4070 super相比rtx 4070在1080p解析度下提升明顯,達到13%,2k解析度提升14%;4k解析度提升18%,綜合提升15%。
在《刺客信條:幻景》中,nvidia geforce rtx 4070 super相比rtx 4070的提升分別為:1080p提升8%;2k提升9%;4k提升12%,綜合提升10%。
在《無主之地3》中,nvidia geforce rtx 4070 super相比rtx 4070的提升分別為:1080p提升19%;2k提升17%;4k解析度提升16%,綜合提升17%。
《光明記憶:無限》的光追測試軟體是獨立於遊戲的測試工具,比遊戲中用到的光線追蹤技術更多,測試條件為「rtx最高/dlss質量」。
性能方面,nvidia geforce rtx 4070 super相比rtx 4070的提升分別為:1080p提升19%;2k提升22%;4k提升23%,綜合提升21%。
在另外一款國產遊戲《邊境》的跑分軟體中,情況基本與《光明記憶:無限》相同,測試條件均在「rtx最高/dlss質量」下進行。
在《邊境》中,nvidia geforce rtx 4070 super相比rtx 4070的提升分別為:1080p提升17%;2k提升18%;4k提升19%,綜合提升18%。
最後的測試中我們在《賽博朋克2077》體會一下不同的光影模式。
從上至下依次為超級畫質/光追超級/光線追蹤:超速模式。可以看到光線追蹤:超速模式相比光追超級更貼近於真實效果。它模擬了真實的光線路徑,其實相比之前的光線追蹤模擬了更多光線在不同表面的反射,完整的計算出了場景的真實光照,避免了上一代光追中出現「死黑」的情況。
另外《賽博朋克2077》更新了dlss 3.5,支持光線重建技術。如上圖中的石橋,在光追關閉的情況下,石橋上的斑駁痕迹幾乎不可見,而打開光線追蹤後,雖然反射出了其表面狀態,但表現細節卻全都沒有了。在開啟了dlss 3.5後,表面紋理更細緻,將畫質整體提升了一個檔次。
7 dlss 3性能測試
截止目前,超過 530 款遊戲和應用已支持 rtx 技術。
其中《龍之信條 2》、《灰區戰爭》、《半條命 2》rtx 版、《地平線:西之絕境》、《層層恐懼》、《人中之龍7外傳:無名之龍》、《人中之龍8》、《納克園:最後的樂園》、《pax dei》、《星際礦工》和《王權與自由》均將支持 dlss 3 技術,其中有些遊戲將在今年發布,有些遊戲則將在今年更新對 dlss 3 的支持,為配備 geforce rtx 40 系列顯卡的遊戲玩家帶來前所未有的性能和更高的圖像質量。
本次dlss 3的測試圖表比較繁瑣,並且增加了1% low fps和延遲的測試,1% low fps則是將一段時間內的幀數從大到小排列,取最小的1%出來,再對這1%的數求平均值。
《星空》經歷了首發後的低迷和差評,近期反響還不錯,在1.8.86大版本更新後,加入了dlss 3,這也讓手持n卡的用戶終於不用再開啟fsr了,整體來看效果非常好。
其中1080p解析度下dlss 3相比dlss 2提升達到64%;2k解析度提升51%;4k解析度提升39%。不難看出在越低的解析度,也就是cpu瓶頸下,dlss 3的幀生成加成越大。
雖然目前《星空》飽受批評的頻繁讀圖依然沒有修改,但至少使用n卡的用戶,畫面流暢度能夠大幅提升了。
《地平線5》也是顯卡測試的老朋友了,其出色的優化讓很多入門級產品都能跑出較高的幀率。在nvidia geforce rtx 4070 super也有較明顯的體現。在3種解析度中,開啟dlss 3相比dlss 2的提升分別為39%/27%/9%。
最後我們也測試了《巫師3:狂獵》,這款遊戲在加入了光線追蹤後,對於配置的要求直線上升,幾乎達到了不開dlss無法流暢遊戲的地步。其中nvidia geforce rtx 4070 super開啟dlss 3相比關閉dlss,提升達到了125%;相比dlss 2的提升也達到了51%。
8 生產力工具測試
v-ray
在生產力工具上,我們測試了最新版本的v-ray渲染器,選擇使用gpu渲染的cuda測試和rtx測試,成績如圖。
blender
blender是一款專業的三維渲染軟體,目前推出了固定的benchmark跑分軟體,省去了安裝軟體下載素材的麻煩。軟體會自動渲染測試monster/junkshop/classroom共三個場景。
上圖為nvidia geforce rtx 4070 super顯卡得分,分別為3281/1548/1645分,平均2158分。
d5渲染器
d5是一款國內實時光線追蹤渲染器,支持多種建模軟體直讀,包括sketchup、3ds max、rhino、revit、archicad、blender、c4d等。目前也已經支持dlss 3,下面我們分別看看幀數和功耗的情況。
選擇軟體自帶的默認場景【簡約客廳】
在實時幀數表現上,由於d5採用實時gpu渲染,所以壓力全在顯卡。可以看到在4k解析度下,即便是nvidia geforce rtx 4070 super也是ppt的狀態,而開啟dlss 3後,幀數提升可達到470%左右,非常暴力。
功耗方面,nvidia geforce rtx 4070 super的tdp為220w。關閉dlss的情況下,實際平均使用功耗為205w,而在開啟dlss 3後,功耗僅有173w。更低的功耗,更高的幀數,可以說dlss 3不僅對於遊戲玩家有非常大的幫助,對於內容創作者來說,也是1+1>2的效果。
9 aigc測試
ai時代不知何時已經離人們的生活越來越近,小到文本改寫,大到各種生成式ai。此前我們已經測試過stable diffusion的ai繪圖能力,不過目前nvidia推出了全新的tensorrt插件,可以充分調用tensor算力,下面我們來測試一下nvidia geforce rtx 4070 super在這方面的性能表現。
【註:所有測試默認開啟xformers優化方案】
首先是較為基礎的sd1.5模型測試,在sd1.5中模型的輸出解析度為512×512和768×768。我們將導出【trt】引擎,並記錄使用默認模型渲染,以及【trt】模型渲染的批次時間。
根據nvidia提供的統一參數進行輸出,以便記錄結果。其中採樣方式為:euler a;採樣步驟:50;batch count:10
【默認sd1.5模型】rtx 4070 super 運算時間 41.3s 約合 4.13秒一張圖
【trt sd1.5模型】rtx 4070 super 運算時間 31.5s 約合 3.15秒一張圖
第二次測試為的sdxl模型測試,sdxl模型將在1024×1024解析度進行訓練,相比sd1.5來說圖像大了2倍,它可以提供更準確的關鍵字匹配,從而獲得更真實的結果。但由於更高的原生解析度和模型複雜性,sdxl模型的計算強度明顯更高。
我們按照相同的參數進行設置,但尺寸規定為1024×1024,下面看看nvidia geforce rtx 4070 super的表現如何。
【默認sdxl模型】rtx 4070 super 運算時間 2m49.7s 約合 16.97秒一張圖
【trt sdxl模型】rtx 4070 super 運算時間 1m47.7s 約合 10.77秒一張圖
在更複雜的模型中,tensorrt引擎的優勢愈發明顯,單張圖片的出圖速度能夠提高6秒左右。並且顯存利用達到了100%,跑滿12gb顯存。
生成式ai距離我們的生活越來越近,幫助最大的就是內容創作者,ai天馬行空的思路往往比人們更具拓展性,藉助ai能夠激發更多靈感來源。而對於普通用戶來說,他也可以讓沒有繪畫功底的人,獨立創作出一幅不亞於藝術家的作品,讓每個人都成為自己生活中的藝術家。
目前生成式ai也僅在初步發展階段,後續對於個性化教育、醫療保健、語言處理,甚至金融分析等等場景,相信都有ai的用武之地。
10 rtx 視頻超解析度(rtx video super resolution)測試
目前rtx 視頻超解析度(rtx video super resolution)已經在部分瀏覽器中進行測試,首先玩家需要更新到nvidia最新驅動,在nvidia控制面板中的【調整視頻圖像設置】可以看到最新的rtx 視頻增強超解析度。
rtx 視頻超解析度是 ai 圖像處理的突破,它超越了傳統的邊緣檢測和特徵銳化技術,極大地提升直播視頻內容的質量。
開啟rtx 視頻超解析度不僅需要最新版驅動,還需要使用rtx 40或30系列gpu,並且幾乎適用於google chrome和microsoft edge瀏覽器中的所有視頻內容(瀏覽器也需要更新到最新版本)。
開啟後,目前已知的打開youtube或者b站,都可以享受到rtx vsr效果的加成。
如果不確定,在全屏播放視頻時,可以打開任務管理器,看到gpu負載增加,即為開啟成功。
我們打開youtube隨意觀看視頻,在打開rtx vsr後,可以清晰明顯的看到水下珊瑚的質量明顯提高,邊緣更為清晰,並且極大減少了失真現象。
(點擊放大查看原圖)
在下面這幅圖的對比中,可以明顯看到開啟rtx 視頻超解析度後,鬍鬚明顯更順滑,已經看不出馬賽克。
不過需要注意的是,rtx 視頻超解析度在低解析度下效果會更明顯,如果本身觀看的視頻為1080p或2k以上,則基本很難看出區別。
這對於一些網速不夠快,只能看低解析度視頻的用戶,或者視頻片源本身不夠清晰的情況,幫助非常大。
11 溫度及功耗測試
功耗測試中,我們選擇furmark軟體進行拷機測試,並採用gpu-z檢測溫度,功耗僅計算顯卡自身。
可以看到nvidia geforce rtx 4070 super這張顯卡但通過40分鐘左右的拷機測試,溫度在71℃左右,熱點溫度在83℃左右。
遊戲動態功耗測試
本次我們在拷機測試中最大板載功耗為220w左右。但在實際遊戲測試中要低很多。
由於不同遊戲負載不同,gpu的實際功耗是動態變化的,類似於fps隨時間的變化,rtx 40系列很難觸及功耗牆。
nvidia geforce rtx 4070 super 3a遊戲平均功耗
rtx 3070 ti 3a遊戲平均功耗
在實際的遊戲功耗測試中,我們選擇《光明記憶:無限》自帶benchmark,光追最高、dlss質量、2k解析度,來拉滿顯卡的性能極限,檢測我們實際應用場景的功耗。
可以看到nvidia geforce rtx 4070 super平均功耗只有197w,而rtx 3070 ti甚至達到了288w,低了90w,這的確是一個驚人的成績。
遊戲平均不到200w的功耗,對於長時間使用電腦,或者像我這種不愛關機的用戶來說,確實能夠有效降低電費,尤其是在南方,這種電費奇高的地區。
或者在一些相對極端的使用環境中,如網咖,電腦基本都是24小時滿載運轉。rtx 40系的超低功耗,對於網咖老闆確實是極大地利好消息。
12 性能逼近rtx 4070 ti
通篇測試下來,相信大家已經大概清楚這張nvidia geforce rtx 4070 super的性能,雖然相比rtx 4070隻貴了100元,但性能卻大幅提升。
具體一點,這張rtx 4070 super相比rtx 4070的綜合性能提升在15-20%左右,與rtx 4070 ti的差距在5%左右。
作為一張70級別產品,雖然它定位2k解析度的高幀光追遊戲,但不管是日常網遊、獨立遊戲,或是傳統3a遊戲,在4k解析度下都能夠達到流暢甚至電競級水準,並且價格依然在5000元以內,這次的super系列當真可喜可賀。
如果我們拋開70、80這種系列觀念,它與rtx 30系的性價比之王rtx 3080,甚至能夠爭一爭「性價比之王」的桂冠。
此前我們說過,從rtx 4090的性能來看,整體rtx 40系的性能提升其實相當炸裂,但從整個70級別開始,性能斷檔嚴重,這也導致了60級產品難以和rtx 30系拉開差距,而讓人詬病。
此番super系列的升級,可以說將rtx 40系整體的性能水平,拉回到了正常區間,形成一個較為規則的等差數列。
但從遊戲實際表現來看,這張卡除了2k解析度能夠達到電競級幀率,在4k解析度下同樣有著出色的表現,其中《地平線5》為110幀;《刺客信條:幻景》為79幀;《無主之地》為67幀。而在開啟dlss 3的情況下,《星空》能夠達到85幀;《燕雲十六聲》能夠達到105幀。
所以儘管這依然是一張70級顯卡,但大可以摸到4k流暢的標準,並且遊戲畫面每年也都在進步,如果用老的標準來衡量這張nvidia geforce rtx 4070 super,它確實有些貴。如果把它當做上一代的rtx 3080,還能便宜不少錢。
這張rtx 4070 super搭配了12gb顯存,所以它除了是一張遊戲卡外,在內容創作和ai性能方面,也都有著不錯的表現。尤其在搭配了tensrort插件後,sdxl這種大模型的單張圖片,較原先生成速度快了38%左右。批量處理多張的速度提升更是按照分鐘來算的。
當然圖片只是生成式ai的基礎玩法,相信未來不管是語音、視頻還是複雜場景的集合體——遊戲,都離不開生成式ai,所以一張高投資高回報的顯卡還是十分划算的。
另外說到漲價,近幾年更離譜的應該是遊戲,一些標準的罐頭3a,漲幅達到2倍甚至3倍,直叫人玩不起。
以上就是這張nvidia geforce rtx 4070 super的全部內容,不知道你對這次super的升級如何看呢?
(8518342)