寫在開頭
rtx 50系顯卡的推出引爆了整個硬體圈,特別是rtx 5090顯卡的推出,更是一卡難求。全新伺服器級別的blackwell架構,極致的性能表現,還有dlss 4、reflex 2等黑科技加身!每一項都足夠點燃玩家的熱情。不過極致的性能也伴隨著極致的價格,讓不少玩家也是望而卻步,那相對更便宜的次旗艦rtx 5080能否應付發燒遊戲玩家、創作者乃至ai開發者的需求呢?
本次評測就帶大家看看rtx 5080的表現如何,我們上手的是微星geforce rtx 5080超龍soc顯卡,熟悉微星的玩家應該對超龍系列不陌生,該系列自推出以來,便以卓越的性能和精湛的工藝,贏得了廣大用戶的高度認可與讚譽,成為微星顯卡家族中的王牌系列。而這款geforce rtx 5080超龍soc,更是超龍系列中的璀璨明珠,堪稱旗艦中的旗艦,全面且過硬的實力就是它的底氣所在。
規格介紹
開始前,照例講講新顯卡的規格。geforce rtx 50系顯卡採用了此前nvidia在ai領域推出的blackwell架構,以大衛·布萊克威爾命名,其是一名受人尊敬的數學家和統計學家,在博弈論和統計學領域留下了不可磨滅的貢獻,nvidia用其名字命名這一架構反映了新平台的開創性和先進的計算能力。blackwell可以說是nvidia近年來更新幅度最大的gpu架構了,相比起之前的架構來說,劃時代的引入了神經網路著色器,力圖為遊戲開創先進、高效更有逼真的渲染方式,帶給玩家全新的遊戲體驗。
相比前代ada架構,blackwell的升級聚焦於四大方向:分別是ai算力的爆發、光線追蹤技術的革新、顯存能效的提升以及劃時代的神經網路渲染。
第五代tensor核心
其中ai算力的爆發就不得不提到blackwell架構上的第五代tensor核心,新一代tensor core添加了對fp4浮點運算精度的支持。fp4是一種較低的量化方法,類似於文件壓縮,可以減小模型推理過程中數據存儲和計算量大小,提高計算效率,降低該過程對顯存的要求。與大多數模型默認使用的fp16相比,fp4使用的顯存不到其一半,並使geforce rtx 50系列gpu的性能相比上一代提升高達2倍。
第四代rt核心
而光線追蹤技術的革新則仰賴於第四代rt核心的加持,相較於第三代rt核心來說,blackwell架構的第四代rt核心主要提升了檢測光線、路徑與三角形相交的效能,過往在檢測時往往只能檢測單個三角形,一旦場景複雜,檢測能力不足就容易導致渲染出錯等問題,而現在檢測能夠以簇集方式進行,檢測效率更高。同時還有三角形簇集解壓縮引擎加持,其新增了linear-swept spheres(lss)功能,可以減少渲染毛髮所需的幾何圖形數量,並使用球體代替三角形以獲得更準確的毛髮形狀擬合,能夠讓顯卡發揮更好的性能但只消耗較小的顯存佔用。
綜合來看,blackwell架構的光線追蹤多邊形相交效率是上一代ada架構的2倍,是turing架構的8倍,同時還可以節省25%的顯存使用率。
第四代rt核心的改進主要是為實現更好的光追效果。其中有兩項新技術能夠受益,第一項是rtx mega geometry技術。隨著光線追蹤遊戲場景的幾何複雜性不斷增加,遊戲畫面中幾何圖形的計算量也呈現出快速增長的趨勢。而rtx mega geometry技術能夠加速構建邊界體積層次結構(bvh),使得在實時渲染中可以處理多達100倍的三角形數量。
該技術的出現,也使得開發者能夠在遊戲場景中使用更複雜的幾何圖形,而不會影響遊戲幀率。過去需要一個個算bvh,現在rtx mega geometry能夠智能地在gpu上批量更新三角形簇,減少了cpu的負擔,既保證了性能,也兼顧了圖像質量。相信隨著這些技術的不斷發展和應用,未來的遊戲將能夠呈現出更加逼真和細膩的視覺效果,同時保持高效的性能表現。
另外一個能夠受益的技術則是curve primitive,方便光追在曲面中的應用,例如一位男士的頭髮可能需要多達400萬個三角形,再加上光線追蹤技術,畫面所需要的運算負載極大。nvidia則通過第四代rt核心中的linear- swept spheres(線性掃描球體)技術有效減少了渲染頭髮所需的幾何體數量,以球形代替多邊形,更貼合頭髮的形狀,從而將內存佔用量大幅縮減至三分之一,並進一步提升了實際幀數,讓頭髮的渲染效果更加自然流暢。
gddr7顯存
第三點改變則是顯存效率的提升,blackwell架構中還首次加入了對gddr7顯存的支持,此前gddr6顯存的信號編碼為nrz/pam2,而rtx 40繫上的gddr6x則是pam4編碼。最新的gddr7顯存,信號編碼改成了pam3,nrz/pam2每周期提供1位的數據傳輸,pam4每周期提供2位的數據傳輸,而pam3每兩個周期的數據傳輸為3位。說人話就是,新的編碼機制可以使雜訊失真比減小,信號品質更清晰,同時還能帶來更高的顯存運行頻率以及更低的電壓,根據nvidia的介紹,使用gddr7顯存後,數據傳輸速率可達gddr6時的2倍,並且功耗接近gddr6的一半,經典加量還減價。
神經網路著色器
接著我們再細說一下這一代架構最大變化,nvidia這次將blackwell架構的sm單元直接稱為神經網路著色器。相比較於之前的可編程著色、cuda統一著色、通用計算著色來說,其最大的變化就是引入了ai,ai將會徹底改變gpu的著色方式。
在blackwell架構中,nvidia 進一步拓展了神經網路渲染的範疇,引入了諸多創新元素,包括神經網路紋理壓縮(neural textures)、神經網路材質(neural materials)、神經網路體積(neural volumes)、神經網路輻射場(neural radiance fields)以及神經網路輻射緩存(neural radiance cache)等,這些元素共同構成了神經網路渲染中神經網路著色的重要呈現方式。
這裡舉個例子讓大家能夠更簡單的理解神經網路渲染,過去複雜的物品或大量異材質的貼圖往往會佔用相當大的內存空間,如果疊加光追的話,計算量將會更大。然而,得益於神經網路渲染技術中的神經網路材質功能,這一問題得到了顯著改善。開發者可以先在離線渲染出物品的光照數據,然後再用這些數據訓練一個小的ai模型,遊戲運行時只要實時調用這個ai模型當場推理就好了,這樣就能還原出想要的光照效果了,再配合神經網路紋理壓縮技術,就能顯著降低實際生成的材質數據量,從而在佔用更少顯示內存的同時,實現了細節更豐富的材質表現,達到了實時生成如電影般細膩素材的效果。
目前神經網路渲染技術已經得到了微軟的大力支持,未來也將會加入到directx中,玩家能夠體驗到更真實的遊戲世界。
而在硬體層面,由於神經網路渲染的加入,blackwell架構的sm單元相較於rtx 40系的ada架構還是有不小變化的,ada架構內的sm內,sm單元會拆分成一半的cuda專門用於處理fp 32(單精度浮點數),另一半則依需求動態調整去處理fp32和int32(32位整數)。而在blackwell架構上,sm單元則改成了cuda核心可以完全依需求動態處理fp32和int32的形式。
另外一個改進是,過往的著色工作往往只有sm單元的shader在處理,而blackwell架構上引入了神經網路渲染以後,使得blackwell架構上的第五代tensor核心也能共同分擔著色工作,大大提高了著色效率。
這樣改進的好處是,blackwell架構能夠進一步針對神經網路渲染工作進行排序,即把傳統的著色工作分配給shader,而需要動用神經網路渲染的工作負載則可以給到tensor核心上,兩種核心同時運用,效率最高可以提升2倍之多。並且得益於tensor核心也加入了可編程渲染管線,現在開發者或api也能更好的調用tensor核心,未來遊戲內我們能見到的ai技術勢必越來越多。
先進的ai管理處理器
此外,ai的應用也越來越多,不僅遊戲中應用ai技術,現在連可編程渲染的過程里也引入了ai,因此如何去分配顯卡內部多樣化工作就成了一個問題。如過往顯卡在開啟dlss玩遊戲時,其中應用到的語言模型和遊戲引擎需要同時與gpu的不同核心交互,生成遊戲幀,但是往往很難做到每一幀都有一致的生成時間,亦或者是遊戲ai對話的響應不夠及時,這些情況都會造成遊戲體驗不友好。
而blackwell架構為了解決這一問題,引入了ai管理處理器(amp)。它能夠實時調度資源,確保在神經網路渲染、幀生成和 ai 驅動的遊戲交互中實現智能化的任務分配。這種設計不僅帶來了更高效的性能輸出,還讓顯卡在遊戲渲染和 ai 運算之間實現了絕佳的平衡,確保幀的間隔均勻,對話類型的ai能夠及時響應,玩家的遊戲體驗一致性能夠比較好的保障。
geforce rtx 5080規格
說了這麼多,接下來給大家介紹一下geforce rtx 5080的硬體規格,不同於老大哥採用的gb202核心。geforce rtx 5080採用的是gb203,核心代號為gb203-400-a1。在架構上擁有7個gpc,但每個gpc包含的tpc並不相同。geforce rtx 5080上總共集成了42個tpc,84個sm單元,336個tmus紋理單元,112個rops光柵化處理單元,10752個cuda核心。
在工藝製程方面,新的gb203核心沿用了tsmc 4nm 4n nvidia custom process工藝。核心面積為378mm2,內部晶體管數量則有456億,在這麼小的空間內堆下如此之多的晶體管,可以說是絕對工業藝術品的集大成之作了!早前看過我們rtx 5090 d的玩家應該都知道它的功耗達到了前所未有的575w,不過作為次旗艦的geforce rtx 5080就保守一些了,僅比上代提升了40w,tdp設定為360w,玩家選購時配備一個850w的電源絕對是綽綽有餘了。
除此之外,geforce rtx 5080還配備了全新的gddr7顯存,顯存等效頻率可達32gbps,同時16gb的大容量顯存也能為玩家提供高解析度下的極致幀率,同時還能兼顧大部分aigc用戶的應用需求,多重黑科技加持下,高解析度出圖也可更加高效。同時視頻輸出介面也進行了升級,能夠兼顧高解析度與高刷新率,後續開箱顯卡時我們會詳細介紹。
至於我們本次上手的微星geforce rtx 5080超龍soc與msrp版本的geforce rtx 5080的區別則主要體現在用料配置上更加高端,同時頻率也會比較高,畢竟是帶了「soc」後綴的顯卡。其基礎頻率與msrp版本一致,均為2295mhz,不過boost頻率提升至2745mhz,提升了不少。
顯卡外觀賞析
在外包裝設計上,微星geforce rtx 5080超龍soc顯卡以白色為基底,配合nvidia特有的綠色條紋圖案以及銀色的超龍suprim標誌,簡約但又大氣,右上角的soc標誌則代表顯卡為超頻版,頻率會高於nvidia的官方設置。
包裝的背面就比較常規了,主要是一些顯卡的賣點介紹以及rtx 50系顯卡的參數,旨在讓玩家更全面的了解自己手上的這款利器。
剛打開包裝就看到「change the game」的slogen,意為「顛覆視界」,微星帶給玩家的不僅僅只在於遊戲,更是讓身兼gamer的用戶展現出自己的生活品味。
頂部則是超龍suprim系列的標誌,這裡給不熟悉的玩家介紹一下,suprim系列是微星在2020年推出的全新系列,suprim系列擁有超高規格的硬體性能,在產品外型上更是具有獨創性,放棄過多的炫彩燈效與複雜的裝飾,以內斂高雅的質感精品形象面世。而suprim系列產品名稱則是由三個片語合而成,分別是:superior、profound、impossible,代表了suprim系列的卓越設計理念、深刻美學設計以及超越的性能表現。
繼續開箱,包裝內除了顯卡本體之外,還有兩樣附件,分別是1條3×8pin轉12v-2x6介面轉接線以及1個迷你款的顯卡支撐桿。其中轉接線採用了與微星自家新款atx 3.1電源同款的雙色插頭,幫助用戶確認顯卡是否插緊,避免連接事故的發生,材質用料也升級了,耐熱度相較於普通款要好19%。而顯卡支撐桿對比上代則變得小巧了許多,其最大支撐高度達98.6mm。
終於見到主角——微星geforce rtx 5080超龍soc,設計語言與上代超龍還是比較類似的,整體採用銀黑配色設計,同時微星還根據鑽石切割的幾何結構為靈感,應用了大量稜角分明的切割線條進行裝飾,讓整張顯卡煥發出不同的質感,觀感上也更加硬朗,盡顯精湛工藝和優雅氣質。
散熱風扇部分,微星也進行了升級。微星geforce rtx 5080超龍soc標配三把暴風7散熱風扇,每把風扇直徑105mm,厚度更是高達15mm,單從規格上就不難看出它的實力強勁。除此之外,每把散熱風扇還標配7片扇葉,採用環形連葉設計,扇葉表面還有龍爪紋理,能夠帶來更佳的氣流效果與更低的噪音表現。
翻轉視角看看顯卡的背部,其背板採用兩種工藝打造,分別是拉絲與磨砂。在不同的光線下,顯卡背部會呈現不同的視覺效果。,拉絲紋理與精確的切割線相契合,造就了低調的精緻感。
在顯卡背部的左側則是鏤空的散熱窗口設計,這樣做的目的是加速顯卡內部的空氣流動,達到提升散熱的目的。並且鏤空窗口附近還有suprim標誌,既是點綴,也是辨識度的一種。
看完了整體,再看局部。在背板上還能看到一個小缺口,這是顯卡bios切換的地方,微星geforce rtx 5080超龍soc提供gaming以及silent兩種模式可選,玩家可以按需選擇。
雙bios切換開關的旁邊則是顯卡的供電介面,為12v-2×6介面,也就是常說的16pin,單口供電能力可以達到600w。
當然,參與供電的不止12v-2×6介面,顯卡底部的pcie金手指也會參與部分供電。並且這一代顯卡的pcie介面升級成為了5.0速率,這也是首次在rtx 50系顯卡上應用,能夠帶來更高的傳輸速率,另外仔細看金手指的形狀,它和上一代的顯卡也有些微的變化。
視線轉到顯卡的兩側,可以看到頂部除了有熟悉的「geforce rtx」標識外,還多了一塊燈牌,上面印有「suprim」字樣。
底部則是密密麻麻的散熱鰭片加持,看起來非常唬人,整張卡拿在手上也是沉甸甸的,很有份量感,散熱效果應該不錯。
值得一提的是,微星在設計這款顯卡時,對辨識度以及裝飾也拿捏得相當到位。例如顯卡正面的風扇底部以及顯卡側邊都有「suprim」的標識。
顯卡的另一邊則是經典的suprim標誌,其設計創意來源於鑽石晶體的幾何形狀,點亮顯卡後還能顯示rgb燈效,猶如不同顏色的珠寶鑲嵌在這塊顯卡之上。
視頻輸出介面方面,還是經典的3個dp加1個hdmi的配置,不過規格上有了升級,微星geforce rtx 5080超龍soc採用的是dp 2.1b與hdmi 2.1b規格。理論上,這一代顯卡的視頻輸出介面可以輕鬆實現4k 480hz和8k 240hz超高解析度與超高刷新率的需求。
最後再帶大家看看這款顯卡的三圍,從這個角度看去,顯卡的厚度足足有3.5槽以上,查詢參數可知,這款顯卡的規格是360*145*76mm。
重量方面,裸卡重量2632g,不得不說還是比較厚重的,玩家裝機前最好先測量一下自己機箱的兼容性。
顯卡上機效果
下面將微星geforce rtx 5080超龍soc上機看看,通電後可以看到風扇的周圍有一小圈燈帶,當顯卡豎裝時即可欣賞到rgb燈效與金屬相互碰撞的高級感,並且燈效還支持自定義調節,想要什麼效果只要在msi center軟體設置就可以了。
頂部的suprim燈牌也同步亮起,給單調的顯卡外殼增添了一抹艷麗,即便玩家是橫裝顯卡時也能一睹rgb的風采。
側邊還有一個超龍suprim系列的logo燈牌,辨識度同樣拉滿,微微凸起的設計更像是一塊寶石,讓人一眼看去就知道這是微星geforce rtx 5080超龍soc旗艦級顯卡。
整體來看,微星geforce rtx 5080超龍soc的燈效設計不像其他顯卡那麼張揚,低調內斂中透露著奢華質感,恰到好處的rgb點綴給人一種「西裝暴徒」的即視感。
顯卡拆解賞析
拆解部分,首先看看顯卡的pcb設計。有一說一,微星geforce rtx 5080超龍soc的pcb在一眾rtx 5080中也是比較特殊的。其為越肩設計,不過得益於rtx 50繫緊湊的設計,因此這塊pcb上余有不少空間。
無論是正面還是背面,pcb上都安排了各式各樣的電子元器件,布局緊湊且焊點飽滿,用料紮實可靠,這款顯卡還特別在12v-2×6介面附近配備了fuse保險,可以提高顯卡的安全性。並且pcb內部還應用了增厚的2盎司銅層,可以提高導電性,從而改善散熱性能和可靠性。
pcb的中央則是本次測試的重點,gb203-400-a1核心,它就是微星geforce rtx 5080超龍soc的大腦,由tsmc 4n工藝打造,擁有10752組cuda核心,稍多於rtx 4080 super,通用的圖形性能自然更強。
核心的四周是8顆gddr7顯存,由三星提供,型號為k4vaf325zc-sc32,內部是512m×32的架構,數據頻率可達32gbps,顯卡的默認設置為30gbps。
供電部分,作為絕對的旗艦,微星geforce rtx 5080超龍soc採用16+3相供電設計。
並且每一相供電都使用了低噪穩定的hci電感以及高效率的drmos,drmos型號為mp87993,最大支持90a電流。
主控晶元則是來自mps,型號為mp29816-a,位於pcb的背面。
下面看看這款顯卡的散熱設計,整張顯卡的散熱系統還是相當有份量的,率先映入眼帘的就是正中間這個大面積且非常厚實的均熱板。根據微星介紹,這個均熱板的厚度足足有9毫米,能夠快速帶離核心及顯存等元件的熱量。
另一側則是我們見過的鏤空窗口設計,這樣正面的散熱風扇能夠最大限度的吹透內部的鰭片,從而加入顯卡內部空氣流動,提升散熱效能。
想要完整取出散熱器,我們還需要卸下固定架,有一說一這個設計還是非常到位的,能夠進一步增強顯卡的剛性架構,防止pcb彎曲,保障你的顯卡安全。
整個顯卡散熱模組還是非常碩大的,微星針對其配備了廣布式方形熱管,這樣設計的目的是,方形熱導管布局更大,能夠充分和均熱板接觸,從而提升整體冷卻效能。
內部共有11根核心熱管,分別是7條8mm直徑熱管與4條6mm熱管的組合,為gpu核心及顯存散熱提供了高效保障。
散熱鰭片則依然使用了微星一貫的波浪形,尾端鰭片則採用翼狀設計,並設置有高低落差的間隔排列以減少氣流的阻礙。
主動散熱就是外觀部分給大家介紹過的暴風7散熱風扇了,搭配上面介紹的方形核心熱管、真空腔均熱板散熱技術以及獨特的散熱鰭片形狀,共同為每位玩家提供了無與倫比的散熱性能和極其安靜的使用體驗。
測試平台介紹
開始性能測試前介紹一下本次的測試平台, cpu使用的是目前毫無爭議的遊戲神u——amd ryzen r7-9800x3d,主板則是來自微星的mpg x870e carbon wifi 暗黑主板。內存為g.skill的幻鋒戟z5 rgb ddr5,在這塊主板上能輕鬆達成ddr5-8000 c38的成績,並且我們這次選用的是24g×2的套條,確保這張顯卡能夠釋放全部性能。
完整配置如下所示:
理論性能測試
開始測試前,照例還是要「認識」一下這張顯卡。從gpu-z的信息中可以看到微星geforce rtx 5080超龍soc的基準頻率為2295mhz,boost頻率為2745mhz,這個頻率不僅比公版rtx 5080要高,對比前代rtx 4080的話,更是還是提升了不少。除此之外,由於是超頻版顯卡,因此這張顯卡的tdp為360w,不過可以進一步解鎖至400w,為超頻預留了充足的空間。
理論性能部分看3dmark,在fire strike系列測試中,微星geforce rtx 5080超龍soc表現非常亮眼,其中4k解析度下領先rtx 4080約26%,2k下可以領先rtx 4080約30%,最誇張的是1080p,差距可以拉大至32%。而在以dx12為代表的time spy測試中,新顯卡同樣逆天,對比rtx 4080 super或rtx 4080顯卡均能做到領先約16-18%,性能提升還是非常可觀的。
除了time spy以及fire stirke提升明顯外,光追項目也有史詩級的提升,微星geforce rtx 5080超龍soc得分22036,這個成績遙遙領先於rtx 4080甚至是rtx 4080 super,分別領先23%和25%。而在最新的speed way測試里,同樣也有超24%的性能提升。
dlss 4專項測試
看完了理論性能部分的測試,接著我們再來看看本次rtx 50系顯卡最「頂」的升級,dlss 3在rtx 40系顯卡上引入了幀生成技術,能夠依靠ai在兩幀之間生成一幀ai幀,從而實現幀數的翻倍,用過的玩家都說好!不過由於每生成一個新的幀都需要光流加速器和 ai 模型參與,因此生成多幀的開銷相當高昂,而過高的性能開銷會帶來瓶頸,導致幀率提升受限。
而這次dlss 4全新升級,引入了多幀生成技術,它可以利用 ai 為每個渲染幀額外生成多達3幀!相比傳統渲染的方式,能夠最多實現8倍的性能提升。並且每次渲染額外幀只需要ai模型執行一次,就能輸出三幀畫面,因此無論是對性能、顯存的開銷還是延遲都比之前要好了許多。
另外,由於多幀生成技術,輸出的幀多了,要給每一幀都安排一個合理的間隔刷新才能讓觀感更好。因此nvidia還引入了專屬的flip metering來代替cpu pacing,它將幀節奏邏輯轉移到顯示引擎,讓gpu能夠更精確地管理顯示時間,儘可能的將每一幀畫面的生成時間保持一致,從而提高整體遊戲視覺的流暢感。不過由於flip metering是硬體級的控制器,因此dlss 4的多幀生成目前只有rtx 50系顯卡支持。
同時dlss 4 還引入了圖形行業首個 transformer 模型實時應用。熟悉ai的應該對它很熟系了,它在ai生成領域已經應用多年了。基於transformer架構的 dlss 超解析度和光線重建模型,相比之前dlss使用的卷積神經網路(cnn)模型來說,具備2倍的參數量和4倍的計算量。在遊戲場景中,能夠提供更高的穩定性、更少的拖影、更高的細節和更強的抗鋸齒能力,使畫面更加清晰、流暢和逼真。
不過雖然dlss 4的多幀生成功能是rtx 50系顯卡的獨佔功能,但新的transformer模型將會逐步下放至dlss 3、dlss 2等,將適用於所有geforce rtx顯卡。並且根據nvidia的說法,超過75款遊戲和應用將在geforce rtx 50系列開售時支持dlss 4的全新dlss多幀生成功能,包括《賽博朋克2077》《戰神:諸神黃昏》《心靈殺手2》《霍格沃茲之遺》等,《黑神話:悟空》也將於今年晚些時候升級支持 dlss4的多幀生成。隨著時間的推移,支持dlss 4的遊戲和應用數量將不斷增加。
簡單介紹完,我們再看看dlss 4的理論表現如何,還是經典的3dmark測試。不得不說微星geforce rtx 5080超龍soc搭配上dlss 4後,幀數就跟打了雞血一樣,開關前後的性能簡直天壤之別!其中2k解析度下,開關前後性能差距足足有4倍之多。4k解析度時幀數差距直接就是6倍,即便是對比dlss 3的話,幀數也能提升70%以上。最離譜的還要屬8k, 微星geforce rtx 5080超龍soc在dlss 4加持下可以做到156 fps,這已經暢玩爽玩的水準了。
接著我們看看dlss 4在實際遊戲中的表現,率先登場的就是有著「顯卡殺手」之稱的《賽博朋克2077》,它的設置頁面是目前支持dlss 4遊戲中最為豐富一款,除了能夠設置dlss 4的多幀生成外,還可以切換dlss 4的另一個特性——transfomer mode,據說能夠讓畫質更清晰,同時還能改善此前的拖影問題,對玩家可以說是一大利好。
我們直接來一波對比,左側為transformer模型,右側則是原本的cnn模型。從第一個場景來看,transformer模型能夠帶來更多的細節。例如左側圖片中的欄杆倒影,這部分表現是比較清晰的,而cnn模型中則幾乎不可見。
第二個場景也是能夠一眼看出區別的,例如金屬門的紋理細節以及磚牆的接縫處,明顯是transformer模型的優化要更好一些。
這個場景的區別主要在於地板細節刻畫以及右側鐵欄杆部分,採用transformer模型的情況下,地板細節更接近真實世界,並且鐵欄杆的細節也能更好的還原。而cnn模型則會丟失比較多的細節,雖然不影響觀感,但總有種「失真感」。
不過transformer模型目前也並非萬能,畢竟是由ai生成而來,因此在部分細節上還是有些錯誤的。例如下方的窗口部分,陽光照射下應該是斑駁的光影,比較正確顯示的應該是cnn模型中的樣式。整體來看,現在transformer模型瑕不掩瑜,大幅改善的畫面細節能夠給玩家帶來更精緻的遊戲展現。
見識完transformer模型的魅力以後,我們再來看dlss 4的性能表現,畢竟是「顯卡殺手」,對顯卡的壓力確實不一般,在最高畫質+路徑追蹤的情況下,微星geforce rtx 5080超龍soc只能跑18.74 fps,完全不可玩。開啟dlss 3以後,遊戲幀數為104.62 fps,體感已經非常流暢了。開啟dlss 4以後,微星geforce rtx 5080超龍soc能夠做到184.42 fps,對比原生解析度,性能足足提升了8.8倍。1%low就更離譜了,幾乎快要追上dlss 3下的平均幀了,整體遊戲體驗更佳。
dlss 4帶來的性能提升是有目共睹的,不過也有玩家擔心dlss 4的畫質表現如何,這裡我們也在遊戲中截取了部分畫面,第一個場景其實差距不大,肉眼很難分辨出區別。
第二與第三個場景還是能夠看出部分細節的,例如第二幅圖中的霓虹燈牌,dlss開至性能檔以後,能夠看到燈牌與前面三張圖有些許差異,不過你得靠細緻的對比才能看出。實際遊戲過程中很難發現,基本不影響觀感。
總的來說,dlss對畫質的影響沒有玩家想像中那麼大,甚至於在紋理細節上能夠不輸或超越原生解析度。如果你是敏感型玩家,那建議可以開至平衡檔,在畫面質量和幀率之間能夠做到很好的平衡。如果你是追求超高幀率,那性能檔也絕對可用,細節保留也不錯,不對比基本看不出,同時幀率還能進一步提高。
我們測試的第二款dlss 4遊戲是《霍格沃茲之遺》,支持dlss 4技術以後可以在設置看到幀生成部分多了一些選擇,其中×2則是原本dlss 3的幀生成,而×4則是rtx 50系獨有的多幀生成功能,另外你也可以選擇插2幀的方式,也就是所謂的×3選項。
實際測試過程中,我們發現《霍格沃茲之遺》這款遊戲優化還是不錯的,4k解析度畫質光追均設置最高的情況下,微星geforce rtx 5080超龍soc在不開任何超分的情況下,平均幀為78 fps。如果開啟dlss 3性能檔,此時幀數已經能夠做到203 fps了,體驗已經相當絲滑了。開啟dlss 4以後,幀數可以進一步提升至358 fps,對比原生4k時,性能提升了約4.5倍以上。同時實際遊戲過程中,無論是1%low還是延遲都不錯,特別是延遲,相比原生解析度還要低不少,跟手感更好。
第三款遊戲我們測試的是《星球大戰》,一樣你能在設置中看到其幀生成功能已經支持×4的選項,也就是dlss 4多幀生成功能。
實測dlss 4在這類優化欠佳的遊戲中確實大有用處,在4k原生解析度下,微星geforce rtx 5080超龍soc的平均幀僅有20 fps,延遲也是高得嚇人,遊玩堪稱ppt。而開啟dlss 4性能檔以後,遊戲平均幀直接暴增至170 fps,遊戲體驗如德芙般絲滑,對比原生4k的表現,足足有8.5倍左右的提升。即便是對比dlss 3的95 fps,那也是接近翻倍的性能提升。
最後一款遊戲是我們的老熟人《漫威爭鋒》,這款遊戲在rtx 50系顯卡首發之時,它還沒有完全適配dlss 4,玩家想要體驗多幀生成功能還需要依靠nvidia app的dlss 4優設功能。不過現在《漫威爭鋒》也正式支持dlss 4了,與上面的遊戲一樣,玩家在遊戲設置中就能直接開啟,並且提供了2x、3x以及4x選項,玩家可以隨意選擇是插一幀、插兩幀還是插三幀。
實測微星geforce rtx 5080超龍soc在4k全高設置下,不開超分,幀數為74 fps,流暢玩是沒問題了,不過想要追求高刷體驗就要開啟dlss 3了,開啟後幀數可以達到190 fps,相比原生解析度已經提升了一倍以上,如果再開啟dlss 4多幀生成,性能對比原生解析度直接提升4倍以上,327 fps的表現妥妥的電競3a。同時延遲表現也非常出色,原生解析度下,其延遲為26ms,而開啟dlss 4以後,延遲甚至能夠降低至23ms,遊戲會更加跟手,體感更佳。
當然,如果你想玩的遊戲還不支持dlss 4,那也不用擔心,nvidia app還提供dlss 4優設功能,說人話就是能夠讓遊戲強開dlss 4,像此前的《漫威爭鋒》,在未更新前,玩家可以直接在nvidia app中簡單設置,就能將幀生成調至「4×」,一鍵實現多幀生成。目前也有不少遊戲支持dlss 4優設功能,感興趣的玩家可以前往體驗。
dlss 4多幀生成功能的問世,毫無疑問為玩家帶來了前所未有的遊戲體驗升級。與上一代rtx 40系的dlss 3幀生成功能相比,它再次實現了幀數的驚人飛躍。在相同的畫質設置下,微星geforce rtx 5080超龍soc的表現遠遠超越了rtx 4080。實際測試中,在上述四款遊戲里,開啟dlss 4的微星geforce rtx 5080超龍soc,幀數幾乎是rtx 4080的兩倍!而且,這一顯著提升並非單純依靠硬體堆砌,而是得益於技術的創新與突破,還是非常驚喜的。
另外,值得一提的是,與dlss 4一起到來的還有全新的nvidia reflex 2技術。延遲一直是電競中繞不開的話題,玩家的每個動作都會經過複雜的計算,再在屏幕上渲染,這其中的每一步都會增加延遲。雖然延遲往往只有幾十毫秒,但是你卻能明顯的感覺到遊戲的不流暢、卡頓。
為了儘可能的降低延遲所帶來的不良遊戲體驗,nvidia發布了nvidia reflex技術,它可以使gpu和cpu同步,確保最佳響應速度和低系統延遲。目前nvidia reflex已集成到超過100款遊戲中,可以將pc延遲降低50%。
而geforce rtx 50系顯卡再度升級,帶來了nvidia reflex 2技術。它結合了reflex低延遲模式與frame warp技術。它可以把最新的滑鼠輸入指令同步給渲染幀,及時更新渲染的遊戲幀並在渲染幀被發送到顯示器之前獲取最新的滑鼠信息,通過刷新渲染的遊戲幀以進一步減少延遲,將pc延遲進一步降低多達75%。
另外,frame warp的加入,能夠進一步將延遲降低。當一個幀被gpu渲染時,cpu會根據最新滑鼠或手柄輸入計算工作流中下一幀的視角位置。frame warp從cpu採樣新的視角位置,然後將gpu剛才渲染的幀扭轉到最新的視角位置。在渲染幀被發送到顯示器之前,在儘可能最新的時間進行扭轉操作,確保屏幕上反映最新滑鼠輸入。
而當frame warp轉移遊戲像素時,圖像中可能會產生縫隙撕裂、鏡頭位置的變化會讓遊戲場景中顯示新的部分。nvidia則開發了一種優化了延遲的預測渲染演算法,該演算法使用來自先前幀的視角、顏色和深度數據,對這些撕裂空白的像素進行準確的圖像修復。玩家可以通過更新的視角看到沒有撕裂的渲染幀,並降低了改變遊戲內視角位置而產生的延遲。說人話就是現在nvidia reflex 2還可以根據上一幀的信息去腦補一些空白的像素,有種無中生有但你又看不出來的感覺。
首發支持nvidia reflex 2技術的遊戲是《the finals》以及《無畏契約》,後續我們也會第一時間帶給大家該技術的詳細評測。
遊戲性能測試
dlss 4非常「逆天」,能夠帶來極致的幀數表現,不過這也需要廠商對dlss 4進行適配,考慮到目前不是所有的遊戲都已經支持dlss 4,因此下面我們要測試的是常規的遊戲以及支持dlss 3的遊戲性能。
還是老樣子,先跑3dmark的dlss 3性能測試。微星geforce rtx 5080超龍soc在2k解析度下,對比rtx 4080或rtx 4080 super,性能提升幅度大概在27%左右,4k解析度下,開啟dlss 3以後性能領先也基本維持在25%,考慮到三張顯卡的cuda核心幾乎沒有差距,只能說老黃確實是有點東西,單是憑藉blackwell架構就讓性能再次起飛。
實際遊戲表現又如何呢?這裡我們選取了11款遊戲進行測試,包含光追及光柵性能方面的測試,而遊戲畫質方面均全部選擇最高畫質,光追設定部分,如有則採用最高。
實測4k解析度下,微星geforce rtx 5080超龍soc應對絕大多數遊戲都輕輕鬆鬆,特別是在dlss的加持下,滿足4k@144hz電競沒有問題,即便是全高設置的《黑神話:悟空》,這款顯卡也能有87 fps的表現,基本碰到了高刷的門檻,後續如果有dlss 4想必幀數提升會更加迅猛。具體到性能上,在這麼多款遊戲里,微星geforce rtx 5080超龍soc整體比rtx 4080 super強約20%左右,如果對比rtx 4080的話,性能領先幅度則可以擴大至25%以上。
圖像視頻創作性能測試
看過了遊戲,下面就是專業創作領域的內容了。先給大傢伙看一下綜合場景的性能表現,在pcmark10 extended測試,微星geforce rtx 5080超龍soc在遊戲、數位內容創作方面的表現更佳,基本上要比rtx 4080高10%和15%左右,而生產力方面的成績則比較低,推測是目前驅動還不完善所致。
辦公軟體測試中,微星geforce rtx 5080超龍soc表現也不錯,整體性能可以領先5%左右,其主要領先在excel、ppt以及outlook三項。
在adobe以及達芬奇的benchmark測試里,微星geforce rtx 5080超龍soc相比rtx 4080或rtx 4080 super也有提升,不過提升比較大的還是視頻編輯部分,究其原因還是這一代rtx 5080對編碼器進行了升級,不僅編解碼的效率更高,同時支持的格式也更豐富。例如在達芬奇和pr的測試中,微星geforce rtx 5080超龍soc領先rtx 4080約7-17%,總體來說就是內容創作的效率更高了。
3d渲染創作性能測試
圖像視頻創作顯然對微星geforce rtx 5080超龍soc沒有壓力,讓我們看看壓力更大的3d渲染以及工業領域軟體中,在blender以及v-ray兩款軟體中,微星geforce rtx 5080超龍soc的表現可以用誇張來形容,其中前者基本上能領先rtx 4080 super達3%-16%,而後者就離譜了,對比兩張40系卡,甚至可以領先84%,幾乎是翻倍的性能提升了。
再看看另外一款渲染器,d5 render是一款基於dxr和光線追蹤技術構建的gpu渲染器。正因為其有光線追蹤技術,其渲染的畫面相當出色。這款軟體在rtx 40系顯卡測試時支持了dlss 3幀生成,而現在隨著rtx 50系顯卡的發布,它也可以通過nvidia app的方式支持最新的dlss 4多幀生成功能。
實測在開啟dlss 4以後,整個渲染預覽的界面變得絲滑流暢,幀數基本都在226 fps附近,而對比不開dlss時,僅59 fps的表現來看,性能幾乎是提升了4倍以上。即便是面對rtx 40系的dlss 3,也一點不虛,性能優勢也有50%以上。
工業領域的表現也是上到了新的高度,其中spec2020能夠反應顯卡的工業能力,在多項測試中微星geforce rtx 5080超龍soc,對比rtx 4080平均有30%的提升,而對比rtx 4080 super也在25%左右。
nvidia編解碼測試
接下來的測試則是介紹rtx 50系顯卡的編解碼器,geforce rtx 50系列顯卡上換裝了第9代nvenc編碼器與第6代nvdec解碼器,在視頻規格上支持av1 uhq(超高畫質 av1)與mv-hevc(多視角hevc)編解碼。同時由於geforce rtx 50系列顯卡還升級支持displayport 2.1 uhbr20輸出,單一通道支持20gbps帶寬,因此用戶可以體驗到令人驚嘆的hdr視覺效果、超高解析度和更流暢的遊戲體驗。
這裡我們直接使用nvidia提供的4k60片源與工程文件分別測試av1、h.265以及h.264下的編碼導出時間。實測同一段素材下,微星geforce rtx 5080超龍soc導出三段視頻的時間分別是9秒、10秒以及13秒,效率分別比rtx 4080或rtx 4080 super快了111%、90%以及54%。
同時,我們也對導出的不同格式的視頻進行了畫質對比,實測av1編碼的視頻在畫質上與h.265或h.264也沒有明顯差距,無論是在文字、人像還是建築等畫面里,三者的畫質可以說是伯仲之間,如果不特地標註其格式,一般人很難用肉眼分辨出來。隨著目前越來越多視頻網站、剪輯軟體和硬體廠商的推動,未來av1勢必會成為下一個最受歡迎的格式。
值得一提的是,geforce rtx 50系顯卡還能夠支持4:2:2色度取樣的視頻編解碼,這將節省cpu的負擔,加快創作速度。上面的圖表裡也可以看到我們的測試成績,實測導出時間會比上代顯卡快不少,畢竟rtx 40系顯卡不支持該功能,僅支持4:2:0色度採樣,如果一定要4:2:2導出只能靠cpu軟解。
4:2:2色度採樣的視頻文件採用的是yuv顏色格式,與存儲紅色、綠色和藍色(rgb)值不同,顏色被存儲為亮度y、藍差色度u和紅差色度v。在這類視頻中,視頻的完整亮度將被保留,而原始色度信息只保留一半,因此相比4:4:4的視頻,其視頻幀數據量僅有不到三分之二,而相比4:2:0的視頻又能提供兩倍的顏色解析度,因此創作者採用這種格式拍攝,能夠在保留更多色彩信息的同時還能減少文件大小和帶寬需求。
ai性能測試
ai性能目前也是大家關注的重點,特別是在國產大模型爆火以後,各行各業都開始接入ai,似乎ai成了必選項。rtx 50系顯卡也針對ai進行了改進,其中最值得說道的就是其加入了對fp4精度模型加速處理的支持,它相比此前rtx 40繫上的fp8精度,能夠實現更快的生成速度,同時顯存佔用也更低。
不信你看,我們用ul procyon的flux.1 ai image generation demo for nvidia進行測試。在均使用fp8精度模型時,微星geforce rtx 5080超龍soc能夠做到13.705s生成一張圖,而rtx 4080或rtx 4080 super則要17秒以上;而切換到fp4精度模型後,速度才真正拉開了差距,微星geforce rtx 5080超龍soc生成圖片的速度能夠提升到6.742秒一張,效率翻了一倍不止。而rtx 4080或rtx 4080 super的生成時間則不降反升,兩代顯卡的性能差距拉大到了3.5倍以上。
並且fp4精度模型生成的圖片也非常能打,從下圖就能看出來,其與fp8生成的圖片幾乎沒有區別,無論是對關鍵詞的理解還是圖像的質量,都非常有保障。
看過了fp4以及fp8,我們再看看微星geforce rtx 5080超龍soc在stable diffusion中fp16以及int8下的表現如何,還是用ul procyon進行測試,在比較輕鬆的sd 1.5文生圖測試里,無論是採用fp16精度模型還是int8精度模型,微星geforce rtx 5080超龍soc的表現都遠超前代顯卡,特別是在int8精度下,生成一張圖的速度僅需0.54秒,效率比上代顯卡快了48%,已經接近一倍了。而即便是在壓力比較大的sdxl中,優勢也非常明顯,生成一張圖的速度為8.439秒,同樣領先rtx 4080或rtx 4080 super約1-2秒。
在ai文本生成測試中,微星geforce rtx 5080超龍soc在一眾大語言模型里同樣表現出眾,我們用mlperf client v0.5大語言模型進行測試,它是基於meta的llama 2 7b開源llm打造,涵蓋了四項ai任務,分別是內容生成、創意寫作以及對兩份不同長度文本進行總結摘要。實測新顯卡在每一項中都表現出了絕對的統治力,各項測試均遙遙領先,性能提升幅度均在16-18%左右。
接著我們又用ul procyon的ai text generation測試了更多的大語言模型,微星geforce rtx 5080超龍soc的優勢依舊十分明顯,在以llama 3.1 7b llm打造的phi-3.5測試中,新一代顯卡取得4522分的成績,相比rtx 4080提升了16%,相比rtx 4080 super則提升了6%;將參數擴大至13b的llama 2的測試,微星geforce rtx 5080超龍soc也能對答如流,4790分的表現已經離rtx 4090不遠了,對比性能的話,則可以領先rtx 4080約28%,領先rtx 4080 super 22%以上。
最後,當然少不了我們的國產大模型deepseek-r1的測試,現在也是越來越多玩家開始用本地部署去玩轉ai了。我們分別用三款顯卡本地部署deepseek-r1:14b的大模型,讓其回答「如何本地部署deepseek-r1大模型?」這個問題,實測微星geforce rtx 5080超龍soc回答這個問題只需14秒,tokens可以達到72.39 tokens/s。作為對比,即便是rtx 4080 super也要21秒才能回答完成,並且tokens/s為59.7,遠遠落後於微星geforce rtx 5080超龍soc,差距為26%,基本與上面的測試相符。
超頻潛力測試
下一項測試超頻,作為微星的當家旗艦,又怎麼能夠不試試它的超頻潛力呢?在超頻前給大夥回顧一下它默認狀態下的成績,time spy得分32386。在顯卡設置為gaming模式、功耗解鎖至111%、風扇轉速手動拉滿的情況下,我們首先給核心加100mhz,顯存加300mhz,此時time spy得分33499,提升幅度3.4%。
繼續增加核心與顯存的頻率,核心加200mhz,顯存加700mhz,time spy得分上升至33899。對比默認的分數,提升幅度加至4.7%。
核心加300mhz,顯存加2000mhz,time spy也能順利通過測試。並且此時分數有了比較大的提升,來到了35166分,3dmark中軟顯核心甚至跑到了3142mhz。
最後,我們成功將微星geforce rtx 5080超龍soc的核心加了400mhz,gpu基礎頻率從2295mhz提升至2695mhz,顯存則是加了2000mhz,頻率從30gbps提升至32gbps。此時time spy得分35719分,軟顯核心頻率3240mhz,這個成績甚至超過了rtx 4090 d,果然微星geforce rtx 5080超龍soc名不虛傳。
功耗與溫度表現
最後一項測試烤機,這也是許多玩家關注的重點。微星geforce rtx 5080超龍soc配備了gaming以及silent兩種bios模式,我們分別進行測試。在gaming模式下,furmark燒機10分鐘後,得益於微星geforce rtx 5080超龍soc出色的設計底蘊,核心溫度並不高,僅有58.4度,顯存溫度更是低至52度,此時顯卡的最大功率為359.7w,已經完全頂著tdp的上限了,風扇轉速則是1507rpm,表現相當驚人,甚至接近不少水冷卡的表現了。
在silent模式的設定下,同樣是烤機10分鐘,核心溫度稍有提升,為63℃,顯存則是56℃。不過有一說一這個表現也是其他rtx 5080難以企及的高度。silent模式還有一個優勢就是風扇轉速降低了,烤機時為1227rmp,與gaming模式相差了300rpm,整體噪音表現會更加優秀。
橫向對比rtx 4080或rtx 4080 super時可以看到,雖然新顯卡的tdp提升了,不過整體的烤機功耗並不算高,特別是微星geforce rtx 5080超龍soc還配備雙bios,無論是更激進的gaming模式還是更安靜的silent模式,核心與顯存的溫度都還控制得不錯,屬於是非常驚喜了。
評測總結
總的來說,微星geforce rtx 5080超龍soc的綜合表現在一眾rtx 5080中是絕對不輸的,甚至可以說是top1的存在。它不僅延續了微星超龍系列的一貫高端定位,更在多方面實現了自我超越,成為遊戲玩家、ai開發者和內容創作者的共同焦點。
在外觀設計方面,這款顯卡就已經讓人眼前一亮。以鑽石切割的金屬幾何結構為靈感進行設計,不僅在視覺上極具衝擊力,更在散熱和結構強度上實現了突破。拉絲與磨砂工藝的巧妙運用,讓顯卡在不同光線下展現出細膩的層次感,這種設計語言不僅提升了產品的辨識度,更傳遞出一種高端產品的質感。
散熱方面更是微星geforce rtx 5080超龍soc的一大亮點,其散熱系統採用了全新設計的方形核心熱管與獨有的v形切口鰭片設計,配合高效的暴風7散熱風扇以及真空腔均熱板散熱技術,確保了在滿載環境下gpu溫度依舊能夠穩定在60℃以下。這個成績說誇張一點都不為過,甚至不輸一些水冷卡。同時顯卡的噪音控制也非常出色,這種「遊刃有餘」的表現,正是高端顯卡應有的素質。
性能方面自不必多說,rtx 5080作為rtx 50系的次旗艦,性能毋庸置疑的強,而作為超頻版的微星geforce rtx 5080超龍soc更是將這種性能推向了新的高度。相比上一代的rtx 4080,它在多個維度上實現了顯著提升,尤其是在遊戲性能和ai計算能力方面。其中遊戲方面,dlss4技術的加入讓顯卡在高解析度下的幀率表現更加出色,甚至在部分遊戲中能夠與上一代旗艦rtx 4090 d一較高下。
ai領域與創作領域對於這款顯卡也是輕輕鬆鬆,不單止性能的提升帶來了更優的創作體驗,微星geforce rtx 5080超龍soc上16gb的大顯存更是一個巨大的優勢。在深度學習和複雜圖形渲染等場景中,大顯存能夠顯著提升處理效率,減少數據傳輸的時間成本。這種全方位的提升,使得微星rtx 5080超龍soc能夠滿足不同用戶群體的多樣化需求。
最後再聊聊選購建議,考慮到目前rtx 5090一卡難求,甚至價格炒至2w以上的現狀。對於絕大多數高端玩家和創作者來說,微星geforce rtx 5080超龍soc已能堪大用,如果你的預算在萬元左右,考慮到這個卡是除rtx 5090/5090d外的頂級選擇,那不妨關注一下。