RTX 4060Ti显卡首测:借助DLSS3比3060Ti最大提升80%

从去年10月第一款GeForce RTX 40系显卡——4090问世开始,当前RTX 40系家族已有RTX 4090、4080、4070Ti和4070四名成员。就在几天前的5月18日,NVIDIA正式公布了按序列即将面世的两款显卡——RTX 4060Ti与RTX 4060,它们基于Ada架构的第四款芯片AD106,预示着RTX 40系面向大众的主流游戏型号终于到来。今晚RTX 4060Ti的性能率先解禁,而RTX 4060则预计在7月份与大家见面。

NVIDIA每新推出一代GPU,在制程进步,架构更新的同时,也总会拿出一些新的图形技术,它造福玩家的同时也给游戏开发者指明新的方向,这是NVIDIA保持领先地位的法宝。在RTX40系这一代上,DLSS3的加入让玩家印象最为深刻,基于张量计算的深度学习架构能够让GPU在帧间隔中自动生成新的帧画面,再加上原有DLSS超分辨率功能,总体上能将像素填充之前的渲染工作量降低到八分之一,极大的施放了GPU资源,使显卡在支持DLSS3的游戏中表现出成倍的帧率提升。

对于RTX 4090、4080这种本身性能强悍,资源充足的高端GPU而言,DLSS3所带来的惊艳表现或许更多的是锦上添花,毕竟人的感官有限,帧率超过150fps后再提升就很难感觉出流畅度有什么区别。但对于这种RTX 4060Ti这种主流定位的产品而言,DLSS3有望使画面效果和性能体验跨入不属于它的阶级,让游戏帧率能够与高刷新率显示器匹配,不但完成1080P分辨率下高画质开光追绝对流畅的任务,或许2K仍有一战之力。RTX 4060Ti具体表现如何?本文将用充实测试数据揭示答案。

规格参数浅析

在进入测试环节之前,按老规矩我们先为了大家介绍RTX 4060Ti的各项规格参数。

RTX 4060Ti的原生GPU芯片AD106-350是首次与大家见面。从芯片后缀上看,它不是满血的芯片,是在完整的AD106基础上削减了一定功能单元得来。不过从型号命名规律上看,RTX 4060Ti几乎就是RTX 4070与RTX 4060之间唯一的产品了,那么或许完整AD106将出现在其它平台上,无缘桌面级。

喜闻乐见的对比表格如下:


RTX 4060Ti的GPU芯片:AD106-350实拍

与该芯片定位的历史传统配置一样,AD106继承了128bit显存位宽接口,并且RTX 4060Ti配备容量为8GB或16GB的GDDR6显存,而非GDDR6X,具体容量依品牌型号而定,本次收到的产品为容量8GB的FE版。^尽管没有GDDR6X显存加持,得益于Ada架构对于存储子系统的改进,相比上一代采用256bit位宽的RTX 3060Ti,无需担忧显存会阻碍RTX 4060Ti的性能发挥。

缓存的重要性

存储子系统是由一个自上而下速度越来越来慢,容量越来越大的几个数据池组成,显存的规格只在特定的时刻影响性能。GPU 中包括靠近 GPU 处理核心的高速缓存,用于存储可能需要的数据。如果 GPU 可以从缓存中调用数据,而不是从显存(更远)或系统内存(甚至更远)请求数据,则数据将被更快地访问和处理,从而提高性能和游戏流畅性,并降低功耗。

GeForce GPU 在每个多单元流处理器 (SM) 中都有一个 1 级 (L1) 缓存(最接近和最快的缓存),每个 GeForce RTX 40 系列图形处理集群 (GPC) 中最多可以找到 12 个缓存。其次是快速、更大的共享 2 级 (L2) 缓存,可以以最小的延迟快速访问。

访问每级缓存都会引入延迟,换来的是更大的缓存容量。在设计 GeForce RTX 40 系列 GPU 时我们发现,相比那些具有小容量 L2 缓存搭配大容量的、访问速度较慢的 L3 缓存的其他方案来说,一个单一的大容量 L2 缓存会更快、更高效。与全新 GeForce RTX 40 系列 GPU 相比,上一代 GeForce GPU 的 L2 缓存要小得多,导致性能和效率相对较低。


过往架构的存储子系统

在使用过程中,GPU 首先在 SM 内部的 L1 数据缓存中查找数据,如果在 L1 中找到数据则无需访问 L2 数据缓存。如果在 L1 中未找到数据,则称为“缓存未命中”,并将继续进入 L2 缓存查找。如果在 L2 中找到数据,则称为 L2 “缓存命中”(请参见上图中的“H”标识),数据将提供给 L1,然后提供给处理核心。

如果在 L2 缓存中找不到数据(L2“缓存未命中”),GPU 现在会尝试从显存获取数据。您可以在上图中看到许多 L2 缓存未命中,该图描述了我们之前的架构存储子系统,这会导致许多显存访问。

如果数据在显存中未找到,GPU 会从您的系统内存中请求它。如果数据不在系统内存中,通常可以从 SSD 或硬盘驱动器等存储设备将其加载到系统内存中。然后将数据复制到显存、L2 缓存以及 L1 缓存,并最终馈送到处理核心。请注意,存在不同的基于硬件或软件的策略来将最有用和最常访问的数据保留在缓存中。

每一次通过显存层级结构的读写数据操作都会降低性能并消耗更多功率,因此通过提高缓存命中率可以提高帧率和效率。


Ada架构的存储子系统

与具有 128 位显存位宽的上一代 GPU 相比,全新 NVIDIA Ada Lovelace 架构的存储子系统将 L2 缓存的大小增加了 16 倍,极大提高了缓存命中率。在上面的示例中展示的 Ada 和上一代架构的 128 位 GPU,Ada 的命中率要高得多。此外,与之前的 GPU 相比,Ada GPU 中的 L2 缓存带宽已显着增加。这使得在处理核心和 L2 缓存之间传输更多数据成为可能。

NVIDIA工程师测试了具有 32 MB L2 缓存的 RTX 4060 Ti 与仅使用 2 MB L2 的 RTX 4060 Ti 的特殊测试版本,这代表了上一代 128 位 GPU 的 L2 缓存大小(其中每个 512 KB 的 L2 缓存绑定到对应的一个 32 位显存控制器)。

在各种游戏和综合基准测试中,与 2 MB 二级缓存的性能相比,32 MB 二级缓存将显存总线流量平均降低了 50% 以上。请参考上面 Ada 存储子系统图中降低的显存访问量。

这种 50% 的流量减少使 GPU 能够更有效地使用其显存带宽,效率提升可达近 2 倍。因此,在这种情况下,隔离显存性能,具有 288 GB/秒峰值显存带宽的 Ada GPU 的性能与具有 554 GB/秒峰值显存带宽的 Ampere GPU 的性能相似。在一系列游戏和综合测试中,大大提高的缓存命中率将游戏帧率提高了高达 34%。

从历史上看,显存位宽一直被用作确定新 GPU 的速度和性能等级的重要指标。然而,显存位宽本身并不能充分表明存储子系统的性能。相反,更全面的了解存储子系统设计有助于辨别及其对游戏性能的整体影响。

关于AD106-350的芯片规格


完整的AD106架构示意图


AD106-350架构示意图(RTX 4060Ti)

对比以上两者架构图,可以看到RTX 4060Ti相比完整芯片削减了一个TPC,即少了两个SM簇。每个SM有128个FP32单元的流处理器,那么便一共少了256个流处理器。相应的Tensor单元、RT单元、纹理单元数量也随之变动,具体规格可查阅以上表格,这里不再赘述。/p>

GeForce RTX 4060 Ti FE版实物图赏

本次我们收到的RTX 4060Ti显卡是NVIDIA官方的FE版,设计上依然沿用从RTX 30系开始推出的最新构型。采用散热片-整流罩一体式,风扇正反双置通透式设计。

测试平台与软硬件配置介绍

鉴于RTX 4060Ti这款型号预期受众面所带来的重要性,本次测试选用12款游戏充分全面考察其性能,并且与它近邻的RTX 4070以及上一代对应的RTX 3060Ti显卡做对比。其中6款游戏支持DLSS3,另外6款则支持DLSS2或不支持DLSS,以尽可能覆盖各种玩家的各种应用范围。

测试平台软硬件配置如下:

值得一提的是,鉴于AMD最近发布的Ryzen 7000系列X3D处理器在游戏方面的优异表现(大部分超过了Intel i9 13900K),本次首测采用目前游戏测试中最为亮相的Ryzen 7 7800X3D作为测试平台。

为确保Ryzen 7 7800X3D处理器性能稳定发挥,测试平台选用微星MEG X670E ACE主板,这是该芯片组产品中的准旗舰型号,仅次于GODLIKE。这款主板的BIOS还针对X3D处理器做了优化,为CPU和内存都提供了一些高性能预设参数,期待参加测试的这些显卡都能发挥出不同以往的表现。

3DMARK五项基准测试

总体来说RTX 4060Ti的跑分高于RTX 3060Ti,DLSS3模式大幅度领先,那是RTX 40系的特权。

DLSS3游戏测试:《赛博朋克2077》

《赛博朋克2077》是知名《巫师》系列开发商CD PROJEKT RED公布的一款角色扮演游戏,故事设定在黑暗的、科技极度发达的腐败未来世界中,并且兼有沙盒元素与RPG机制。

测试使用《赛博朋克2077》自带的基准测试程序。

DLSS3游戏测试:《F1 22》

《F1 22》是一款体育类竞速游戏,借助由全部20名车手及10支车队组成的真实阵容,使用2022赛季 Formula 1 的惊人新车比赛,通过沉浸式或影院式比赛序列来掌控自己的比赛体验。

测试使用《F1 22》自带的基准测试程序

DLSS3游戏测试:《瘟疫传说:安魂曲》

《瘟疫传说:安魂曲》将展开第二段情感旅程,法国瘟疫肆虐,玩家将追随阿米西亚和她年幼的弟弟雨果的步伐,进行新的危险任务,不惜一切代价在残酷、冷漠的世界中生存下来。

该游戏无自带基准测试程序,采用游戏第一章节开始在田野里的一段场景测试帧率。

DLSS3游戏测试:《霍格沃茨之遗》

《霍格沃茨之遗》是一款基于《哈利·波特》系列书籍设定的沉浸式开放世界动作角色扮演游戏。在旅程中,你将造访那些熟悉的和陌生的地点,发现奇妙的野兽,自定义你的角色并制造魔药,掌握施放咒语的技巧,升级天赋并成为你所向往的巫师。

该游戏无自带基准测试程序,采用游戏教学章节中在轨道上的一段固定场景做测试。

DLSS3游戏测试:《战锤40K:暗潮》

本作由深受玩家喜爱的多人合作游戏《战锤:末世鼠疫》系列开发商制作,并将是一款4人合作游戏。游戏故事发生在 Tertium 之巢,玩家将于伙伴合作一起在这款全新的《战锤40K》冒险中对抗成群的敌人。

该游戏无自带基准测试程序,采用游戏开始从管道中进入的一段路线做测试。

DLSS3游戏测试:《原子之心》

《原子之心》是由Mundfish工作室开发的一款第一人称射击游戏,游戏设定为现实世界的另一条世界线。本作中,玩家将扮演特工P-3在这个酷炫的世界中冒险,与疯狂的机器人作战,收集各种各样的武器来完成自己的使命。

该游戏无自带基准测试程序,采用游戏开始广场中的一段U形路径做测试。

热门相关:骑士归来   重生当学神,又又又考第一了!      无限杀路   惊世毒妃:轻狂大小姐