當(dāng)前位置:首頁(yè) > 山西 > 英偉達(dá)RTX 5070 12GB FE顯卡上手:2K 200幀 起飛了 正文

英偉達(dá)RTX 5070 12GB FE顯卡上手:2K 200幀 起飛了

來源:千龍網(wǎng)   作者:黑龍江   時(shí)間:2025-03-15 08:36:55

期待已久的英偉RTX 5070終于與大家見面了,今天為大家?guī)淼纳鲜衷u(píng)測(cè)為NVIDIA GeForce RTX 5070 12GB FE顯卡。

本次評(píng)測(cè)的起飛RTX 5070相比RTX 5070 Ti價(jià)格更實(shí)惠,官方建議零售價(jià)為4599元起,英偉其中1700元的上手差價(jià)對(duì)于裝機(jī)預(yù)算8000左右的玩家來說也是非常大的數(shù)目,至少整套存儲(chǔ)設(shè)備都能夠搞定了。起飛

所以今天我們就來著重看看,英偉同為70級(jí)顯卡,上手大家應(yīng)該如何選擇,起飛它們分別更適合什么使用場(chǎng)景。英偉

首先可以告訴大家的上手是,從測(cè)試結(jié)果來看,起飛這張RTX 5070 12GB FE主要應(yīng)用場(chǎng)景在2K分辨率。英偉受到12GB顯存的上手制約,部分3A大作在4K分辨率下運(yùn)行會(huì)較為吃力。起飛這其中以《黑神話:悟空》、《心靈殺手2》以及《怪物獵人:荒野》等游戲?yàn)橹鳌?/p>

不過對(duì)于很多次時(shí)代網(wǎng)游,如《三角洲行動(dòng)》、《燕云十六聲》,這張RTX 5070 12GB FE依然能夠在4K分辨率下達(dá)到電競(jìng)級(jí)幀率。

本次評(píng)測(cè)的NVIDIA GeForce RTX 5070 12GB FE為公版顯卡,下面先來看看外觀。

NVIDIA GeForce RTX 5070 12GB FE概覽

NVIDIA GeForce RTX 5070 12GB FE依然延續(xù)了環(huán)保包裝,整體更薄,相比之前的RTX 5080小了一大圈。同樣采用了淡黃色的淺色系設(shè)計(jì),高級(jí)感滿滿。

從外形來看,這代公版顯卡的包裝盒有點(diǎn)像骨頭,也有網(wǎng)友戲稱為“狗骨頭”禮盒。雖然整體更輕薄了,不過采用的高強(qiáng)度瓦楞紙疊加在一起,包裝的抗沖擊力和減震效果都要比傳統(tǒng)的顯卡包裝盒更強(qiáng)。

NVIDIA GeForce RTX 5070 12GB FE的整體外觀設(shè)計(jì)沿襲了RTX 40系的風(fēng)格,不過在細(xì)節(jié)上仍有較大的變化。整體尺寸為243 x 97×40mm左右,非常小巧,采用雙槽設(shè)計(jì)。

NVIDIA GeForce RTX 5070 12GB FE整體采用純黑色霧面金屬面板,外框相比此前RTX 5080 16GB FE顯卡的銀色,更偏銀灰色。這也讓本身尺寸較小的RTX 5070 12GB FE配色更統(tǒng)一,一體性更強(qiáng)。

近距離可以看到NVIDIA GeForce RTX 5070 12GB FE采用了7葉環(huán)形風(fēng)扇,表面同樣為磨砂質(zhì)感設(shè)計(jì),與顯卡的金屬面板質(zhì)感相似。

從I/O接口區(qū)擋板的散熱格柵能夠看到,NVIDIA GeForce RTX 5070 12GB FE由于整體尺寸受限,并沒有采用RTX 5080 16GB FE顯卡的雙流直通的散熱方式,而是與上一代散熱方式相同。

在視頻輸出接口上,NVIDIA GeForce RTX 5070 12GB FE采用了HDMI 2.1b*1 + DP2.1b*3的四接口設(shè)計(jì)。

其中DP 2.1b接口為UHBR20規(guī)格,可達(dá) 80Gbps 帶寬,最高支持8K (7680x4320) @165Hz(DSC);4K (3840x2160) @480Hz(DSC)。另外需要注意的是,要達(dá)到 80Gbps 帶寬需要DP80LL認(rèn)證的線材。

在NVIDIA GeForce RTX 5070 12GB FE的側(cè)面,除了供電接口,還有兩條較長(zhǎng)的散熱孔洞,便于將內(nèi)部的熱空氣從兩側(cè)排出。

本次NVIDIA GeForce RTX 5070 12GB FE的TDP官方給出的為250W,搭載單16pin(12+4)輔助供電。

另外值得注意的是,本次電源接口改為了側(cè)面斜插的方式,相比于平行顯卡的接口,它能夠避免顯卡上機(jī)后線材與機(jī)箱側(cè)板的空間過于狹小,而導(dǎo)致的線材過度彎折問題,從而降低安全隱患。

NVIDIA GeForce RTX 5070 12GB FE的背板采用了大面積且密集的散熱鰭片,而且靠近尾部的鰭片中心部位還有大面積凹陷設(shè)計(jì)。

整張NVIDIA GeForce RTX 5070 12GB FE顯卡,雖然尺寸減少很多,但做工和細(xì)節(jié)的設(shè)計(jì)依然誠(chéng)意滿滿,甚至可以說不計(jì)成本。下面我們?cè)賮砜纯幢敬鶵TX 50系顯卡,NVIDIA RTX Blackwell架構(gòu)帶來了哪些變化。

NVIDIA RTX Blackwell架構(gòu)

GeForce RTX 50系顯卡由全新的NVIDIA Blackwell架構(gòu)打造,本次評(píng)測(cè)的RTX 5070采用首次露面的GB205 GPU。

完整的GB205 GPU包含:5個(gè)圖形處理集群(GPC)、25個(gè)紋理處理集群(TPC)、50個(gè)流式多處理器(SM)、6個(gè)32位內(nèi)存控制器(192位總線位寬)。

完整的GB205 GPU包含:310億晶體管、6400個(gè)CUDA核心、50個(gè)RT光追核心、200個(gè)Tensor張量核心、200個(gè)紋理單元、80個(gè)光柵處理單元(ROP)。

不過本次NVIDIA并沒有公布GB205的核心示意圖,所以下面我們還是用完整的GB202核心作為對(duì)照參考。

從上圖可以看到,RTX 5070具備988的AI TOPS;94 RT TFLOPS以及31 Shader TFLOPS算力,以及全新的12GB GDDR7顯存。

這里我們?cè)僖酝暾腉B202核心來看看架構(gòu)整體的變化。完整的GB202核心包括12個(gè)圖形處理集群(GPC);96個(gè)紋理處理集群(TPC);192個(gè)流式多處理器(SM),和一個(gè)512bit總位寬,包含16個(gè)32bit內(nèi)存控制器的內(nèi)存接口。

對(duì)應(yīng)到我們熟悉的數(shù)字,則是24576個(gè)CUDA核心,192個(gè)RT Core;768個(gè)Tensor Core以及768個(gè)紋理單元。由于第5代Tensor Core采用了更高速的FP4運(yùn)算,完整的GB202可達(dá)到恐怖的4000 AI TOPS;而第4代RT Core采用的新的幾何運(yùn)算模型,也讓它可以達(dá)到360 RT TFLOPS。

RTX 5090 PCB

另外,每個(gè)SM單元中還包含兩個(gè)FP64內(nèi)核,總共384個(gè)。FP64內(nèi)核主要目的是確保帶有FP64代碼的程序可正常運(yùn)行,并確保準(zhǔn)其確性。這對(duì)于某些專業(yè)領(lǐng)域來說至關(guān)重要,比如醫(yī)學(xué)或?qū)I(yè)計(jì)算領(lǐng)域。

GPC是GPU中占據(jù)主導(dǎo)地位的高級(jí)模塊,所有關(guān)鍵的圖形處理單元都位于GPC中。在RTX 50系中,GPC整體的布局變化不大。

每個(gè)GPC包含一個(gè)專用的光柵引擎,兩個(gè)ROP分區(qū)。每個(gè)分區(qū)包含8個(gè)單獨(dú)的ROP單元和8個(gè)TPC,每個(gè)TPC包含1個(gè)變形引擎和兩個(gè)SM單元。

完整的GB202核心還包含128MB的L2緩存。大緩存的變更自RTX 40系顯卡便已開始,所有程序都可以受益于這個(gè)高速大容量的緩存池,而光線跟蹤(特別是路徑跟蹤)等復(fù)雜操作將產(chǎn)生巨大的好處。

SM單元是GPU架構(gòu)中的核心組件,在GPU并行處理中發(fā)揮著關(guān)鍵作用,它通過其各種核心(CUDA,Tensor,RT),高效的warp調(diào)度,內(nèi)存管理以及對(duì)AI等現(xiàn)代工作負(fù)載的支持實(shí)現(xiàn)大規(guī)模并行。本代RTX 50系顯卡中SM單元的變化非常大,下面我們?cè)敿?xì)來了解一下。

完整的GB202核心包含192個(gè)SM單元,每個(gè)SM包含128個(gè)CUDA核心;1個(gè)第4代RT Core;4個(gè)第5代Tensor Core;4個(gè)紋理單元。1個(gè)256KB的寄存器文件和128KB的L1共享緩存,它可以根據(jù)圖形和計(jì)算工作負(fù)載的需要配置不同的大小。

在Blackwell架構(gòu)的SM單元中,INT32整數(shù)運(yùn)算的數(shù)量增加了一倍。與Ada架構(gòu)的SM單元相比,實(shí)現(xiàn)了INT32與FP32內(nèi)核的完全統(tǒng)一。不過在時(shí)鐘周期內(nèi),統(tǒng)一內(nèi)核只能作為FP32或INT32內(nèi)核運(yùn)行。

與Blackwell架構(gòu)一同推出的還有GDDR7顯存,采用pam3信號(hào)技術(shù),它有著更高頻率與更低電壓的特點(diǎn)。

本代RTX 5090配備28 Gbps GDDR7顯存,峰值顯存帶寬可達(dá)1792GB/s/秒,而RTX 5080配備更高的30 Gbps時(shí)鐘頻率的GDDR7顯存,峰值內(nèi)存帶寬可達(dá)960 GB/秒。結(jié)合新的引腳編碼方案,GDDR7實(shí)現(xiàn)了顯著增強(qiáng)的信噪比(SNR)。

通過增加信道密度、改進(jìn)的pam3信噪比、先進(jìn)的均衡方案、重新設(shè)計(jì)的時(shí)鐘架構(gòu)和增強(qiáng)的I/O訓(xùn)練,GDDR7提供了更高的帶寬。這些進(jìn)步還顯著提高了能源效率,提供了更好的性能和延長(zhǎng)電池壽命,特別是在移動(dòng)端,或功率受限的系統(tǒng)中。

Blackwell 第4代RT Core

在第4代RT Core中,簡(jiǎn)單來說它相比Ada架構(gòu),在渲染光線追蹤場(chǎng)景時(shí),提供了兩倍光線三角形相交測(cè)試吞吐量,并引入了Mega Geometry的結(jié)構(gòu)算法。

Opacity Micromap Engine

不透明微引擎在Ada架構(gòu)中已經(jīng)引入,這里不再過多講述,它主要的作用是優(yōu)化光線追蹤渲染,可大幅減輕著色器的工作負(fù)擔(dān)。

比如樹葉之類的復(fù)雜物體,不同的光線都會(huì)影響它的表現(xiàn)狀態(tài),以及樹葉之間的光線反彈,所以對(duì)于光線追蹤的計(jì)算量是巨大的。

不過Opacity Micromap Engine可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規(guī)則形狀和半透明的對(duì)象,也就能夠更快更精準(zhǔn)的渲染出來,從而極大減輕著色器的工作負(fù)擔(dān)。

RTX Mega Geometry

除了上面提到的Opacity Micromap Engine,在Blackwell架構(gòu)中,還引入了Mega Geometry(大型幾何)的運(yùn)算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

新的Blackwell RT核心包含一個(gè)Triangle ClusterIntersection Engine三角形群集交集引擎,它能夠進(jìn)一步加速大型幾何的光線追蹤,同時(shí)它的工作還包含標(biāo)準(zhǔn)的光線三角形交集測(cè)試。Linear Swept Spheres則主要用于光線追蹤中精細(xì)的幾何形狀,比如發(fā)絲。

RTX Mega Geometry的理念與虛幻5引擎的Nanite虛擬微多邊形幾何體系統(tǒng)相同,在現(xiàn)代游戲中,模型更加細(xì)致,需要渲染的工作量大幅增加,如果全部按照最精細(xì)的級(jí)別處理,將會(huì)耗費(fèi)極大的計(jì)算資源,所以將LOD分級(jí)便應(yīng)運(yùn)而生。

簡(jiǎn)單來說,就是根據(jù)一個(gè)物體距離攝像機(jī)的遠(yuǎn)近,來調(diào)節(jié)物體的細(xì)節(jié)水平。此前《黑神話:悟空》便應(yīng)用了這樣的技術(shù),它消除了LOD的繁瑣任務(wù),可以掃描并導(dǎo)入極高精細(xì)程度的模型。并且,這不會(huì)影響性能。仍然可以獲得實(shí)時(shí)幀速率。

在RTX Mega Geometry中提供了新的BVH構(gòu)建功能,它采用三角形集群作為一級(jí)基元。新的集群加速結(jié)構(gòu)Cluster-level Acceleration Structures(CLAS)可以從256個(gè)三角形空間緊湊批次中生成,然后使用CLAS集合作為輸入來構(gòu)建最終的BVH。

不過虛幻5引擎并非專為Blackwell而設(shè)計(jì),RTX Mega Geometry的工作只是更高效的讓游戲引擎調(diào)用API。由于其輸入?yún)?shù)完全由GPU內(nèi)存驅(qū)動(dòng),游戲引擎可以在GPU上更高效的運(yùn)行LOD選擇、動(dòng)畫、剔除等邏輯。同時(shí)最大限度減少對(duì)CPU的往返,進(jìn)而減少與BVH管理相關(guān)的CPU開銷。

然而在更加精細(xì)化的游戲引擎中,按照傳統(tǒng)的流程,應(yīng)用程序必須從場(chǎng)景中的每一幀的所有對(duì)象中構(gòu)建一個(gè)頂層加速結(jié)構(gòu)。而隨著更大的世界規(guī)模以及繁雜的場(chǎng)景物體,僅靠LOD分級(jí)仍然難以實(shí)現(xiàn)質(zhì)的變化。

為了解決這個(gè)問題,RTX Mega Geometry引入了一種新型的頂層加速結(jié)構(gòu)(TLAS),稱為分區(qū)頂層加速結(jié)構(gòu)(PTLAS)。

它無需在每一幀都從頭開始構(gòu)建一個(gè)新的TLAS,PTLAS能夠辨別從一幀到另一幀,哪些對(duì)象是靜態(tài)的。

應(yīng)用程序通過將對(duì)象聚合到分區(qū)中,并僅更新那些已更改的對(duì)象來節(jié)省開銷。

例如,游戲可以將靜態(tài)游戲世界的各個(gè)部分放入所屬的分區(qū)中,同時(shí)將動(dòng)態(tài)對(duì)象分離到每幀重建的“全局分區(qū)”中。與傳統(tǒng)的TLAS相比,請(qǐng)求的分區(qū)更新越少,節(jié)省的運(yùn)行時(shí)開銷就越大。

另外好消息是,RTX Mega Geometry可通過底層API進(jìn)行擴(kuò)展支持,適用于所有支持光線追蹤的NVIDIA GPU,也就是從圖靈架構(gòu)(Turing)開始。

不過Blackwell的第4代RT Core是專門為RTXMega Geometry而設(shè)計(jì)的,硬件中的特殊集群引擎實(shí)現(xiàn)了幾何和BVH數(shù)據(jù)的新壓縮方案,同時(shí)是第3代RT Core光線三角形相交率的2倍。因此,Blackwell架構(gòu)可以實(shí)現(xiàn)用更小的顯存,更高效的處理這些內(nèi)容。

Linear Swept Spheres (LSS)

LSS(線性掃描球體)是Blackwell架構(gòu)中新增的圖形語(yǔ)言,它極大地簡(jiǎn)化了復(fù)雜頭發(fā)和毛發(fā)的渲染開銷,并能提升質(zhì)量。

此前渲染頭發(fā)仍然需要最基礎(chǔ)的三角形來表達(dá)物體,如圖所示,發(fā)絲中的一個(gè)線段需要6個(gè)三角形,而一根頭發(fā)便需要無數(shù)個(gè)三角形來確保其精度。比如我們的頭發(fā)則需要600萬個(gè)三角形來表達(dá)。

Blackwell架構(gòu)的RT Core引入了LSS新語(yǔ)言的支持,它類似于鑲嵌曲線,允許靈活地近似各種鏈型。并且球體也更適合發(fā)行構(gòu)建。

LSS的引入可以讓發(fā)型構(gòu)建,減少3倍的數(shù)據(jù)量,速度大約快了2倍,并可以使用更少的顯存,獲得更高的幀數(shù)。

Blackwell 第5代Tensor Core

本代架構(gòu)除了RT Core進(jìn)行了改進(jìn)升級(jí),專門負(fù)責(zé)AI及高性能計(jì)算的Tensor Core也迎來了重大升級(jí)。

與NVIDIA Ada Tensor Core一樣,Blackwell架構(gòu)的Tensor Core支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

Blackwell還增加了對(duì)FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

FP4精度支持

FP4提供了一種較低的量化方法,類似于文件壓縮,可以減小模型大小,提升生成速度。與FP16精度(大多數(shù)型號(hào)發(fā)布的默認(rèn)方法)相比,F(xiàn)P4只需要不到一半的顯存。FP4使用NVIDIA TensorRT提供的量化方法,幾乎沒有質(zhì)量損失。

例如,目前最強(qiáng)的AI繪畫模型FLUX.dev ,在FP16上需要超過23GB的顯存,而這意味著它只能由每一代的期間產(chǎn)品RTX 4090,RTX 5090和專業(yè)GPU來支持。

而對(duì)于FP4,F(xiàn)LUX.dev測(cè)試對(duì)顯存的需求將少于10GB,讓更多80級(jí)和70級(jí)的顯卡均能在本地運(yùn)行。

在性能和效果對(duì)比上,使用帶有FP16的RTX 4090,F(xiàn)LUX.dev模型可以通過30個(gè)步驟在15秒內(nèi)生成圖像。使用帶有FP4的RTX 5090,只需5秒多一點(diǎn)就可以生成圖像。

DLSS 4

DLSS 4是本代RTX 50系顯卡帶來的重大更新,對(duì)于玩家來說它也是最能實(shí)際感受到的。最新版本DLSS 4帶來了新的多幀生成(MFG),具有更快的性能和更低的顯存使用等特性。包含超分辨率(SR),光線重建(RR)和深度學(xué)習(xí)抗鋸齒(DLAA)模型,可進(jìn)一步增強(qiáng)圖像質(zhì)量和穩(wěn)定性。

這些新技術(shù)由RTX 50系GPU和第5代Tensor Core支持,并由云端的NVIDIA Al超級(jí)計(jì)算機(jī)提供支持。不過對(duì)于手持RTX 40系或更早期顯卡的玩家還無緣體會(huì)。DLSS 4新增的多幀生成,目前僅支持RTX 50系顯卡。

Multi Frame Generation(多幀生成)

DLSS多幀生成能夠通過每個(gè)傳統(tǒng)渲染幀,生成多達(dá)三幀的額外幀來提高FPS。新的幀生成AI模型相比之前的幀生成方法快40%,使用的顯存減少30%,并且每個(gè)渲染幀只需要運(yùn)行一次就可以生成多個(gè)幀。高效的AI模型代替了上一代的硬件光流模型,從而加快了光流場(chǎng)的生成速度,并顯著降低了生成額外幀的計(jì)算成本。

從生成幀的層面來說,上一代DLSS 3幀生成基于CPU的幀節(jié)奏,而這種方式可能會(huì)讓生成的幀與額外的幀混合在一起,導(dǎo)致每幀之間的幀節(jié)奏不太一致,影響平滑性。

為了解決生成多幀的復(fù)雜性,Blackwell架構(gòu)將幀節(jié)奏邏輯轉(zhuǎn)移到顯示引擎,使GPU能夠更精確地管理顯示時(shí)序,從而避免與額外幀混合的情況,進(jìn)而提升幀生成的準(zhǔn)確性及穩(wěn)定性。

而第5代Tensor Core擁有更高的計(jì)算能力,這使得它們能夠更快地執(zhí)行計(jì)算光流和生成多幀的一系列AI模型。并更好地調(diào)度DLSS AI處理、圖形渲染和幀速度算法。

Transformer模型

此前DLSS所用的模型為Convolutional Neural Network,即我們熟悉的卷積神經(jīng)網(wǎng)絡(luò)(CNN),CNN的工作原理是將像素局部聚集在一起,并以樹的形式從低到高地進(jìn)行分析數(shù)據(jù)。這種結(jié)構(gòu)的計(jì)算效率很高,這也是為什么它被稱為卷積神經(jīng)網(wǎng)絡(luò)。

而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光線重建和深度學(xué)習(xí)抗鋸齒(DLAA),從而提高圖像質(zhì)量和渲染平滑度?;赥ransformer模型體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),擅長(zhǎng)處理涉及順序和結(jié)構(gòu)化數(shù)據(jù)的任務(wù)。簡(jiǎn)單來說,就是Transformer能夠抓住“重點(diǎn)”,可以更好地理解和渲染復(fù)雜場(chǎng)景。

與CNN模型相比,Transformer更容易在更大的像素窗口中識(shí)別更遠(yuǎn)距離的模式,具有一定的學(xué)習(xí)能力和“前瞻性”。

本代DLSS 4將基于CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),轉(zhuǎn)變?yōu)榛赥ransformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在許多場(chǎng)景下圖像質(zhì)量都有著顯著提升。

Shader Execution Reordering (SER) 2.0

Shader Execution Reordering(著色器重排序)是在RTX 40系架構(gòu)中引入的一項(xiàng)技術(shù),它可以使帶有光追的程序有效地重組GPU上的大量并行線程,以最大限度地利用硬件。

因?yàn)檫B貫執(zhí)行神經(jīng)工作負(fù)載的線程可以直接發(fā)送到Tensor Core,所以SER也顯著加速了神經(jīng)著色。在Blackwell架構(gòu)中,SER的核心重排序邏輯效率是原來的兩倍,減少了重排序開銷并提高了精度。

從而進(jìn)一步提高了該功能的有效性。這項(xiàng)功能更多地是為應(yīng)用程序開發(fā)者而設(shè)計(jì),它僅需一個(gè)小的API改動(dòng),即可執(zhí)行重排序操作,進(jìn)而提升總體項(xiàng)目的負(fù)載性能。

測(cè)試平臺(tái)簡(jiǎn)介

首先介紹一下測(cè)試平臺(tái),為了保障NVIDIA GeForce RTX 5070 12GB FE顯卡的性能發(fā)揮,我們的平臺(tái)也再次進(jìn)行了全面更新。

除了NVIDIA GeForce RTX 5070 12GB FE這張顯卡,處理器選擇了AMD R7 9800X3D游戲神U。內(nèi)存為32GB DDR5 6400MHz,系統(tǒng)版本為24H2。

為了方便觀察DLSS 4在畫質(zhì)上的提升和4K高幀率帶來的游戲變化。我們選擇了EVNIA 32M2N8800 OLED顯示器,這款顯示器采用了4K@240Hz的高分高刷規(guī)格,可完美適配DLSS 4的多幀生成。而99%的DCI-P3色域覆蓋,更可細(xì)致入微地觀察Transformer模型帶來的細(xì)節(jié)提升。

本次RTX 50系顯卡采用了帶寬速率更高的PCIe5.0x16,應(yīng)用于顯卡的PCIe5.0x16帶寬速度高達(dá)128GB/s,用于固態(tài)硬盤的PCIe5.0x4也高達(dá)32GB/s,致態(tài)TiPro9000,實(shí)測(cè)順序讀寫速度高達(dá)14526.95MB/s和13869.24MB/s,達(dá)到“滿血”級(jí)別,可大幅提升操作系統(tǒng)/大型游戲/創(chuàng)作軟件的響應(yīng)和加載速度。

NVIDIA GeForce RTX 5070 12GB FE采用GB205核心,TSMC 4nm定制工藝(TSMC 4nm 4N NVIDIA CustomProcess),芯片面積263mm2。值得注意的是,在RTX 50系顯卡中,使用了PCIE×16 5.0帶寬。

顯卡擁有6144個(gè)CUDA核心,Boost頻率達(dá)到了2512MHz。采用12GB GDDR7顯存,位寬為192bit,顯存帶寬達(dá)到了672 GB/s,光柵單元和紋理單元為80/192。

理論性能測(cè)試

下面先進(jìn)行的是用來衡量顯卡DX11理論性能的3DMARKFS套裝:FS,FSE,FSU三者分別對(duì)應(yīng)顯卡在1080P、2K、4K的理論性能,取顯卡分?jǐn)?shù)實(shí)際測(cè)試結(jié)果如下:

在針對(duì)顯卡DX11性能的3DMARK FS套裝測(cè)試中,NVIDIA GeForce RTX 5070 12GB FE在三檔分辨率中相較RTX 4070提升分別為,17%/29%/39%,綜合提升約為28%。而相比RTX 5070 Ti的差距為21%/20%/21%,綜合約為21%。

而在針對(duì)DX12環(huán)境下的Time Spy和Time Spy Extreme測(cè)試中,NVIDIA GeForce RTX 5070 12GB FE相較RTX 4070 的提升分別為:TS提升23%;TSE提升20%,綜合提升約為22%。相比RTX 5070 Ti的差距為20%/21%,綜合約為21%。

PortRoyal是3DMARK中專門針對(duì)光追性能的測(cè)試項(xiàng),NVIDIA GeForce RTX 5070 12GB FE相較RTX 4070的提升約為25%;相比RTX 5070 Ti的差距為26%。

綜合來看,NVIDIA GeForce RTX 5070 12GB FE的理論性能相較RTX 4070的提升約為25%。

下面我們?cè)賮砜纯?DMARK中新增的一些具體應(yīng)用場(chǎng)景的測(cè)試。

Speed Way這項(xiàng)測(cè)試結(jié)合了實(shí)時(shí)光線追蹤和傳統(tǒng)渲染技術(shù)來測(cè)量顯卡性能。場(chǎng)景含有光線追蹤反射、實(shí)時(shí)全局光照、網(wǎng)格著色器、體積照明、粒子和后處理效果。所以SW的測(cè)試基本可以看做次世代3A游戲基準(zhǔn)。

NVIDIA GeForce RTX 5070 12GB FE對(duì)比RTX 4070,提升為31%。從Speed Way中不難看出,新架構(gòu)在次世代3A游戲中,面對(duì)光照、粒子等后處理效果,提升會(huì)非常大。

在DLSS的理論測(cè)試中,有著較大變化,共分為兩種模型。DLSS 2及DLSS 3采用上一代的CNN模型,而最新的多幀生成,則采用了Transformer模型,并且多幀生成可調(diào)節(jié)生成幀的數(shù)量。

從測(cè)試結(jié)果來看,DLSS 4 2X基本可以看作是DLSS 3的幀生成,而相比上一代DLSS 3,DLSS 4 4X模式下,幀數(shù)綜合提升在75%左右,其中在8K提升非常大,在81%左右。

而8K分辨率,NVIDIA GeForce RTX 5070 12GB FE顯卡憑借DLSS 4的多幀生成也可以達(dá)到103幀的成績(jī),而在關(guān)閉DLSS的狀態(tài)下,8K分辨率則是完全無法運(yùn)行的狀態(tài)。

通過DLSS的理論測(cè)試,不難發(fā)現(xiàn)8K高刷對(duì)于RTX 50系顯卡來說早已不是觸不可及的目標(biāo)。下面我們先實(shí)際測(cè)試DLSS 4在游戲中的表現(xiàn)如何,能否達(dá)到理論測(cè)試的提升效果。

DLSS 4性能測(cè)試

本次DLSS 4在解禁首日,便可支持75款游戲或應(yīng)用。除了游戲中首發(fā)支持外,對(duì)于尚未集成的游戲,可在NVIDIA app中進(jìn)行直接調(diào)節(jié)非常方便。

在DLSS 4的測(cè)試中,首先來看《賽博朋克2077》,目前該游戲隨著RTX 50系顯卡的性能解禁,也已經(jīng)更新了DLSS 4,如果首發(fā)買了顯卡,也可自行測(cè)試一番。

下面的測(cè)試中我們會(huì)進(jìn)行多角度對(duì)比,來看看不同DLSS的設(shè)置下,三檔畫質(zhì)的幀數(shù)表現(xiàn)。

《賽博朋克2077》

在所有測(cè)試中,為保證縮放比例固定,我們均選擇在DLSS 質(zhì)量模式下進(jìn)行。

傳統(tǒng)DLSS 2的測(cè)試中,使用CNN模型DLSS,NVIDIA GeForce RTX 5070 12GB FE主要適配2K分辨率游戲,可以看到光追超級(jí)畫質(zhì)為77幀,而在光追加速模式下為47幀,尚無法達(dá)到流暢運(yùn)行的成績(jī)。

DLSS 3的測(cè)試依然為CNN模型,增加幀生成。可以看到DLSS 3已經(jīng)可以大幅提升幀數(shù),相較DLSS 2,在2K超級(jí)畫質(zhì)/光追超級(jí)/光追加速 的提升分別為50%/66%/74%,綜合提升63%。

DLSS 4的測(cè)試為Transformer模型4X幀生成模式,在2K超級(jí)畫質(zhì)/光追超級(jí)/光追加速中,相較DLSS 3的幀生成提升分別為53%/66%/80%。

除了幀數(shù)上的提升,DLSS 4對(duì)于畫質(zhì)表現(xiàn)如何,下面我們來看看實(shí)機(jī)截圖對(duì)比。

可以看到在采用Transformer模型的DLSS 4中,物體表面的紋理細(xì)節(jié)更清晰。即便是沒有模型面覆蓋的銹跡,DLSS 4依然能精準(zhǔn)還原。

同理,墻上的裂紋在DLSS 4中有更明顯的痕跡。并且整體畫面相較于DLSS 3,更通透明亮。大家也可下載4K圖片自行比對(duì)。

《漫威爭(zhēng)鋒》

《漫威爭(zhēng)鋒》是近期大火的FPS+MOBA類網(wǎng)游,最初被看作《守望先鋒》的替代品,但實(shí)際游玩效果,無論畫面還是玩法,都更勝一籌。

目前《漫威爭(zhēng)鋒》已經(jīng)在游戲中集成了DLSS 4,可直接開啟,下面來看看幀數(shù)上的變化。

對(duì)于一款競(jìng)技網(wǎng)游來說,高幀率比畫面更重要,NVIDIA GeForce RTX 5070 12GB FE在2K分辨率下,DLSS 2質(zhì)量模式達(dá)到130幀。

在DLSS 4 4X多幀生成中,2K分辨率相比DLSS 3質(zhì)量模式再提升66%,達(dá)到313幀。而4K分辨率也能達(dá)到200幀,完全能夠滿足電競(jìng)游戲的需求。

在畫面對(duì)比中,DLSS 4 4X的四檔畫質(zhì)也很難看出區(qū)別,角色的頭發(fā)、衣服,遠(yuǎn)處的建筑涂繪,基本都和原生畫質(zhì)分毫不差。

《霍格沃茲之遺》

本次新增了《霍格沃茲之遺》的幀數(shù)測(cè)試,該游戲所有DLSS相關(guān)測(cè)試均在“質(zhì)量”模式下進(jìn)行。首先來看無光追最高畫質(zhì),2K分辨率下NVIDIA GeForce RTX 5070 12GB FE在DLSS 4 4X下可達(dá)到368幀的成績(jī)。

而在開啟光線追蹤后,《霍格沃茲之遺》對(duì)性能要求激增,不過有DLSS 4的加持,2K分辨率的最高幀數(shù)依然能達(dá)到283幀,讓3A游戲達(dá)到電競(jìng)游戲的需求。

打開光追后,雖然對(duì)于配置要求激增,但同樣畫面表現(xiàn)有著明顯區(qū)別,其中最明顯的則是水體,能夠明顯看出隨著深度不同,水體顏色的變化。

另外光線重建則能夠修復(fù)一些畫面的細(xì)節(jié)表現(xiàn),比如圖中圈出的部位,開啟光線重建后,建筑的光影層次更分明。

《心靈殺手2》

《心靈殺手2》是被譽(yù)為次世代最強(qiáng)畫面的游戲,對(duì)于配置需求極高,但同時(shí)畫面表現(xiàn)堪稱完美。不過在不開啟光追,默認(rèn)最高畫質(zhì)下,對(duì)配置的要求還比較親和,NVIDIA GeForce RTX 5070 12GB FE在DLSS 4 4X多幀生成的加持下,2K分辨率可以達(dá)到255幀的成績(jī)。

而開啟光追后,雖然有多幀生成的加持,但2K分辨率的幀數(shù)仍然下降了一倍。4K分辨率的原生畫質(zhì)下更是無法運(yùn)行。下面來看看開啟光追后的畫面有何區(qū)別。

《心靈殺手2》整體畫面較為昏暗,但光影氛圍刻畫非常到位。在開啟光追后,陰影的表現(xiàn)更清晰,更符合真實(shí)的物理表現(xiàn),同時(shí)水體與《霍格沃茲之遺》相同,均能夠表現(xiàn)出水潭的深淺,相比原生畫質(zhì),游戲的代入感更強(qiáng)。

《鳴潮》光線追蹤 畫質(zhì)對(duì)比

二游是目前非?;馃岬挠螒蝾I(lǐng)域,早期二游畫面以卡通風(fēng)格為主,不過近幾年也開始“卷起來”了?!而Q潮》近期即將引入DLSS幀生成以及光線追蹤,讓畫面和幀數(shù)都有更好的表現(xiàn)。下面我們來看看實(shí)機(jī)演示效果。

光追較為明顯的區(qū)域永遠(yuǎn)離不開水面,從圖中可以看到開啟光追后,對(duì)面NPC在水中的倒影更清晰,且水面線與建筑的過渡更柔和。而近處物體也能夠吸收地面二次反射的光線,讓輪廓更清晰。

在玻璃上的光追反射就不用說了,甚至光追的加入,能夠讓玩家解決永遠(yuǎn)看不到絕對(duì)領(lǐng)域的“BUG”。

另外在玻璃的反射中,除了主角能夠清晰映射,注意右下角的小怪也能一同出現(xiàn)在玻璃中。

玻璃的反射除了方便觀察絕對(duì)領(lǐng)域,還能夠?yàn)槭覂?nèi)場(chǎng)景增加沉浸感,開啟光追后,對(duì)面玻璃能夠反射出屋頂?shù)臒艄?,讓整個(gè)室內(nèi)更立體。

絕對(duì)領(lǐng)域絕對(duì)領(lǐng)域,相信光追的加入,能夠讓不少玩家更興奮了~

另外一個(gè)比較重大的變化,則是在室外光照較為強(qiáng)烈的場(chǎng)景。如云嶺谷,在開啟光追后,全局光照能夠結(jié)合場(chǎng)景的光照條件,將光線的反射映射到整個(gè)峽谷中,甚至整體色調(diào)都發(fā)生了變化,沉浸感相當(dāng)強(qiáng)。

常規(guī)游戲性能測(cè)試

除了支持DLSS 4的游戲,我們同樣測(cè)試了一些主流的3A大作和支持DLSS 3的游戲,為更多玩家提供參考方向。

首先來看剛剛發(fā)布的《怪物獵人:荒野》,這款游戲自帶benchmark,不過目前游戲的優(yōu)化比較糟糕,實(shí)際幀數(shù)相對(duì)更低一些。

benchmark測(cè)試無高清材質(zhì)包,另外根據(jù)官方提示,使用高清材質(zhì)包需顯存在16GB以上。

本代《怪物獵人:荒野》增加了光線追蹤,測(cè)試將開啟光線追蹤【高】品質(zhì)。

NVIDIA GeForce RTX 5070 12GB FE在2K分辨率,進(jìn)開啟DLSS 2的情況下僅有88幀,而實(shí)際游戲中大概會(huì)在60幀左右。而DLSS 3則能夠達(dá)到108幀,不過目前有部分玩家開啟幀生成后會(huì)無法進(jìn)入游戲。

《怪物獵人:荒野》的光線追蹤運(yùn)用到的效果不多,主要為水面反射,所以對(duì)幀數(shù)影響并不大,有需要的玩家可以開到最低擋,同樣有不錯(cuò)的效果。

《黑神話:悟空》是一款國(guó)產(chǎn)虛幻5巨制,自帶DLSS 3幀生成。我們的兩項(xiàng)測(cè)試也全部開啟幀生成,均為影視級(jí)畫質(zhì)。實(shí)測(cè)NVIDIA GeForce RTX 5070 12GB FE在2K分辨率下最高已經(jīng)達(dá)到了123幀。

在開啟光追后,《黑神話:悟空》對(duì)于配置的要求還是相當(dāng)高的,不過部分畫質(zhì)擋位出現(xiàn)了幀數(shù)倒掛的情況,比如2K超級(jí)性能畫質(zhì),幀數(shù)相比關(guān)閉光追更高。

從我們此前的測(cè)試來看,使用虛幻5引擎的《黑神話:悟空》不同DLSS檔位下的畫質(zhì)幾乎沒有差距。

如果扔想獲得比較高的畫質(zhì),2K分辨率下可以選擇性能模式游玩,100幀也足夠了。對(duì)于很多風(fēng)景黨來說,可既享受高幀率的同時(shí),又不損失畫質(zhì)。

《燕云十六聲》是網(wǎng)易開發(fā)的一款國(guó)產(chǎn)武俠大作,在DLSS 2的測(cè)試中,2K與4K的成績(jī)幾乎完全相同。或許是游戲窗口全屏的問題,測(cè)試會(huì)出現(xiàn)各種各樣的BUG。

而在DLSS 3的測(cè)試中,成績(jī)看起來比較正常。在2K分辨率下NVIDIA GeForce RTX 5070 12GB FE大部分DLSS成績(jī)均在200幀以上,甚至在4K分辨率下也有過百幀的成績(jī)。

近來同樣大火的《三角洲行動(dòng)》測(cè)試中,NVIDIA GeForce RTX 5070 12GB FE在2K分辨率下,DLSS 2的結(jié)果已經(jīng)達(dá)到了148幀左右的電競(jìng)級(jí)體驗(yàn)。不過FPS網(wǎng)游會(huì)受到多種因素影響幀數(shù),如周圍玩家、環(huán)境復(fù)雜程度、網(wǎng)絡(luò)等等,所以測(cè)試結(jié)果僅供參考。

而在加入幀生成的測(cè)試后,幀數(shù)進(jìn)一步拉開。但NVIDIA GeForce RTX 5070 12GB FE在4K分辨率下的成績(jī),相較DLSS 2提升不如低分辨率下明顯。

《地平線5》也是顯卡測(cè)試的常駐游戲,其憑借出色的優(yōu)化,在原生效果下即可跑出優(yōu)秀的成績(jī)。NVIDIA GeForce RTX 5070 12GB FE在DLSS 3 2K分辨率下達(dá)到221幀,對(duì)于賽車游戲來說綽綽有余,甚至4K分辨率下也游刃有余。

不過似乎是受到顯存限制,4K分辨率下開啟DLSS 3后的幀數(shù)提升并不明顯。

在《刺客信條:幻景》中,我們關(guān)閉游戲的自適應(yīng)幀率,分別測(cè)試DLSS不同擋位與原生畫質(zhì)下的差異。

NVIDIA GeForce RTX 5070 12GB FE在2K分辨率原生畫質(zhì)下為118幀,而在DLSS質(zhì)量擋位中,便達(dá)到152幀的出色水平。

在經(jīng)典3A游戲《無主之地3》中,NVIDIA GeForce RTX 5070 12GB FE相比RTX 4070的提升分別為:1080p提升18%;2K提升26%;4K提升30%,綜合提升25%。

在純光柵化游戲幀數(shù)對(duì)比中,《無主之地3》比較能概括NVIDIA GeForce RTX 5070 12GB FE相比RTX 4070的光柵化性能綜合提升。

《光明記憶:無限》的光追測(cè)試軟件是獨(dú)立于游戲的測(cè)試工具,比游戲中用到的光線追蹤技術(shù)更多,雖然游戲較老,但對(duì)于性能要求卻非常高,本次測(cè)試條件為“RTX最高/DLSS質(zhì)量”。

性能方面,NVIDIA GeForce RTX 5070 12GB FE相比RTX 4070的提升分別為:1080p提升26%;2K提升28%;4K提升35%,綜合提升30%。

專業(yè)軟件測(cè)試

本代NVIDIA GeForce RTX 5070 12GB FE為12GB顯存,其實(shí)相對(duì)并不適合專業(yè)軟件,不過憑借對(duì)于FP4運(yùn)算的支持,的確讓不可能變?yōu)榱丝赡堋?/p>

UL Procyon

本次測(cè)試UL提供了FLUX.1 Dev繪畫模型的FP4測(cè)試,該模型在FP16上運(yùn)行需要超過23GB的顯存,而FP8也需要超過16GB的顯存,但FP4只需要不到一半的顯存。而且FP4使用NVIDIA TensorRT提供的量化方法,幾乎沒有質(zhì)量損失。更小的顯存消耗讓更多80級(jí)和70級(jí)的顯卡均能在本地運(yùn)行。

所以本次由于顯存不足,無法測(cè)試FP8,故僅有FP4的成績(jī)。

FP4渲染生成圖片

FP8和FP4所生成的圖片效果是相同的,在細(xì)節(jié)和圖片精度上均有著良好表現(xiàn)。

NVIDIA Broadcast

NVIDIA Broadcast是一款用于直播或會(huì)議的AI軟件,目前隨著RTX 50系的發(fā)布,也進(jìn)行了版本更新。

新版NVIDIA Broadcast界面更小巧,縱向布局也更方便視頻直播中調(diào)節(jié)選項(xiàng)。

NVIDIA Broadcast一些經(jīng)典效果更方便開啟,其中目光接觸功能非常適合遠(yuǎn)程會(huì)議,即便眼睛盯著屏幕,也能讓參與人員時(shí)刻注意到你的眼睛,并且還有一定“大眼”效果。

虛擬補(bǔ)光仍是測(cè)試版功能,它可以在光線較暗的情況下進(jìn)行面部的AI補(bǔ)光,看你看起來仍然處于光線較好的環(huán)境中。

NVIDIA App

新版的NVIDIA app代替了原來的GFE軟件,并且功能更強(qiáng)大,使用起來也更方便。最主要的是,它不用登陸了,即下即用。

在NVIDIA app首頁(yè)除了顯示最新的驅(qū)動(dòng)信息,還新增了NVIDIA周邊軟件的下載,比如AI繪畫Canvas;圖像視頻對(duì)比工具ICAT;性能測(cè)試工具FrameView等等,不用再去NVIDIA官網(wǎng)尋找。

從APP中強(qiáng)制開啟DLSS 4的功能上面已有介紹,不過目前并不是所有游戲和軟件均支持此功能。

系統(tǒng)界面中則更多的是調(diào)試類功能,如顯示器、視頻、超頻等。

其中性能界面提供了較為詳細(xì)的監(jiān)控和超頻選項(xiàng),需要注意的是新手如果想嘗試超頻,盡量不要改變電壓,這個(gè)選項(xiàng)輕則掉驅(qū)動(dòng),重則燒毀顯卡。

另外玩家可放心大膽地使用NVIDIA app中的性能自動(dòng)調(diào)優(yōu)功能,經(jīng)過NVIDIA反復(fù)驗(yàn)證過的參數(shù)都是在安全范圍內(nèi),并且出現(xiàn)問題的話,這張卡仍然具備保修資格。

NVIDIA信息浮窗是游戲中很好的輔助工具,要開啟此功能,需要在APP主界面的設(shè)置一欄中,開啟按鈕,之后按【ALT+Z】即可呼出邊欄。

按【ALT+R】可呼出統(tǒng)計(jì)數(shù)據(jù)的浮窗,功能設(shè)置和自由度的調(diào)節(jié)也非常豐富,最主要的是相當(dāng)簡(jiǎn)便。

功耗及溫度測(cè)試

功耗測(cè)試中,我們選擇FurMark2軟件進(jìn)行拷機(jī)測(cè)試,并采用GPUZ檢測(cè)信息。

目前FurMark2已經(jīng)可以識(shí)別到GPU的溫度信息。NVIDIA GeForce RTX 5070 12GB FE在半小時(shí)左右的烤機(jī)測(cè)試中GPU溫度為75℃;顯存溫度為70℃。另外可以看到在TDP 100%的滿載情況下,整卡功耗為250W。

除了滿載烤機(jī),我們也實(shí)測(cè)了游戲中顯卡的真實(shí)數(shù)據(jù)表現(xiàn)。測(cè)試選擇《賽博朋克2077》benchmark,2K分辨率光追超級(jí)畫質(zhì),并開啟DLSS 4 4X多幀生成,將顯卡性能拉滿。

可以看到NVIDIA GeForce RTX 5070 12GB FE的平均功耗為215W左右。

《賽博朋克2077》光追超級(jí) 畫質(zhì)延遲

進(jìn)行功耗檢測(cè)的同時(shí),我們也調(diào)出了延遲數(shù)據(jù),在DLSS 4 4X多幀生成的環(huán)境下,NVIDIA GeForce RTX 5070 12GB FE在213幀的平均幀率下,游戲平均延遲為41.6ms左右。證明即便有多張AI生成幀參與到游戲中,我們依然能獲得比較“跟手”的操作體驗(yàn)。

2K 200幀奢華體驗(yàn)

RTX 50系70級(jí)顯卡,目前的已知型號(hào)已經(jīng)全部發(fā)布完畢,相較此前70級(jí)顯卡,本代最大的區(qū)別就是兩張顯卡分別對(duì)應(yīng)4K及2K分辨率。

RTX 5070 Ti憑借高算力、DLSS 4以及16GB大顯存加持,可在4K分辨率下無壓力3A游戲。而RTX 5070則更加專注2K分辨率。

但專注2K并不意味著RTX 5070是”將就“在2K分辨率,從實(shí)測(cè)結(jié)果來看,大部分游戲在2K分辨率下都能夠達(dá)到150幀以上的成績(jī),而有DLSS 3或DLSS 4加持的游戲,甚至能夠達(dá)到200幀以上。

所以其實(shí)限制這張NVIDIA GeForce RTX 5070 12GB FE顯卡發(fā)揮的,更多的是顯存。目前大部分3A游戲?qū)︼@存要求極高,在4K分辨率下12GB確實(shí)有些“遭不住”。像剛剛發(fā)布的《怪物獵人:荒野》單單一個(gè)高清材質(zhì)包,最低顯存就要16GB以上。

實(shí)際性能方面,這張NVIDIA GeForce RTX 5070 12GB FE相比上一代RTX 4070綜合提升約為25%左右。官方建議售價(jià)為4599元起,相比RTX 40系剛剛發(fā)布時(shí),便宜200元。

如果是單純的性能對(duì)比,確實(shí)RTX 5070的提升有限,但如果有了DLSS 4的加持,幀數(shù)便有了質(zhì)的變化。

還記得在發(fā)布會(huì)時(shí),老黃就表明RTX 4090的性能,本代RTX 5070便可達(dá)到,雖然靠著DLSS 4的加持打平,多少有些牽強(qiáng),但也反映出這項(xiàng)技術(shù)的夠暴力。不管中間過程如何,至少結(jié)果相同。

本次發(fā)布的RTX 5070超頻版本顯卡,將于3月5日22:00解禁,而屆時(shí)部分MSRP版顯卡也將一同售賣,起售價(jià)4599元。想率先體驗(yàn)DLSS 4爆炸性能3A游戲玩家,不妨關(guān)注一下。

標(biāo)簽:

責(zé)任編輯:五大聯(lián)賽

全網(wǎng)熱點(diǎn)