几经波折,rtx 4080 super的公版显卡还是与大家见面了。作为截止目前rtx 40 super系列的最后一张显卡,rtx 4080 super在性能上也是目前数一数二的存在,今天就为大家带来nvidia geforce rtx 4080 super fe版显卡的评测。
作为整个rtx 40系显卡的升级产品,目前发布的3款产品在性能上都要优于该型号的原型卡。并且对比价格方面,rtx 4070 super的官方建议售价对比rtx 4070算是加量不加价;rtx 4070 ti super对比rtx 4070 ti持平;而rtx 4080 super对比rtx 4080更是低了1400元。
从三款super系列显卡的定价来看,不难发现nvidia的目的,也是逐渐平衡rtx 40系中高端显卡之间的价格差距,尽量让其性能与价格相符。
话不多说,下面直接来看nvidia geforce rtx 4080 super fe显卡的外观。
1 nvidia geforce rtx 4080 super fe概览
本次发布的3款显卡中,有两款产品均发布了fe版产品,rtx 4070 super更偏向于中端,卡身依然算是较为小巧,而rtx 4080 super的卡身更厚重,质感也更强。
比较意外的是,这次包装内提供的转接线为8pin*2转16pin。不过rtx 4080 super的推荐电源仍是750w,老用户想升级电脑的需要注意。
与最早rtx 40系fe版不同的是,这张nvidia geforce rtx 4080 super fe版的金属边框以及字体同样为黑色,看上去如同蓄势待发的猛兽。
nvidia geforce rtx 4080 super fe版显卡的整体尺寸约为310×140×61mm(不含挡板),占用3槽空间。作为一款次旗舰显卡,它配备了更大散热模组,体积与卡皇rtx 4090不相上下。
nvidia geforce rtx 4080 super fe版风扇尺寸相比rtx 30系增大,基本已经达到了显卡整体框架的直径,而在散热风扇增大的基础上,最大气流动态增加20%,同噪音等级的气流动态增加15%。
本次super系列的fe版显卡依然有着工艺品般的外观,不过所有面都比较容易沾染指纹,如果想要收藏的用户,建议戴上手套再“把玩”。
视频输出接口上,依旧采用了hdmi 2.1 dp 1.4a*3的四接口设计。hdmi 2.1可支持4k 120hz hdr、8k 60hz hdr。
由于公版采用的双轴流散热系统,所以在视频输出接口部位能够看到大量的散热鳍片,上机后也能感受到热风从这里排出。
本次nvidia geforce rtx 4080 super fe的整卡功耗为320w,采用单16pin的辅助供电,推荐电源750w及以上。上机后,显卡侧面的“geforce rtx”会发出白光,与这张黑色为主的显卡倒是相得益彰。
2 nvidia geforce rtx 4080 super 架构浅析
本次发布的geforce rtx 40系显卡由全新的nvidia ada lovelace架构打造,采用tsmc 4n nvidia定制工艺,旗舰核心ad102达到了的760亿个晶体管,而在rtx 30系显卡中为280亿个。
与上一代nvidia ampere相比,nvidia ada lovelace在相同功率下,具有2倍以上的性能提升,最高可达到90-tflops的着色器数据吞吐量。
本次发布的rtx 4080 super共有10240个cuda核心,提供了52-tflops算力;80个第三代ada rt core拥有121 rt-tflops;320个第四代tensor core可提供836 tensor-tflops(ai tops)。
rtx 4080 super的l2 cache容量为64mb,带宽为736 gb/s。nvidia官方也特别表明了l2 cache的重要性,我们以两张图来简单说明l2缓存的作用。
在真正的gpu中,内核是所有计算发生的地方,而这就是l1数据缓存的作用所在。每个sm都有一个超低延迟的l1数据缓存,紧挨其处理内核,使l1成为gpu寻找信息的首选。然而由于l1缓存需要离内核非常近,不可能非常大。
如果在l1缓存中找不到内核计算所需的数据,gpu将在l2数据缓存中寻找。这个显存系统位于gpu芯片上,并通过一个非常高速的横梁系统连接到所有的gpc(图形处理集群),每个gpc包括多个sm。如果在l2缓存中找到了信息,那么gpu就挑出这些数据并将其放入内核。
如果在l2缓存中找不到信息(被称为缓存缺失),那么gpu将通过显存接口在vram中寻找。这在整个gpu存储子系统中产生了很多额外的工作量,并降低了性能和功耗效率。
更多详细的参数,我们为大家总结出了一张表格,可以看到从各方面的规格来说,这张rtx 4080 super更接近于rtx 4080,距离卡皇rtx 4090还有很大差距。
另外最主要的价格方面,相比rtx 4080的建议售价足足便宜了1400元,一方面有rtx 40系首发定价过高的原因,但本次super系列的升级也显出了足够的诚意,下面我们直接看测试成绩。
3 测试平台简介
首先介绍一下测试平台,为了保障nvidia geforce rtx 4080 super的性能发挥,我们的平台依旧采用了最新的i9-14900k,搭载微星z790 ace战神,机电散则采用的航嘉三件套。
航嘉mvp apollo pro(阿波罗大师版)采用全景无立柱设计,堪称真正的“海景房”,内部空间宽敞,支持支持atx、matx、mini-itx主板和rtx 4090这类顶级显卡。结构方面,采用左右分层散热设计,机箱配件和电源独立散热,滑动式钢化玻璃侧板以及双顶盖加固式设计。还支持最新的背插式主板,方便玩家走出清爽的背线。除此之外,这款机箱还增加了type-c接口,拥有10个风扇位,完美兼容360mm水冷。搭配mvp 120小宇宙静音风扇可实现散热、静音和“光污染”兼得的效果。
酷睿i9 rtx 4080 super是一套“梦幻组合”, 但在实现高性能的同时,更需要强有力的“后勤保障”。本次测试我们选择航嘉mvp p1200白金全模组电源,基于atx3.0规范打造,拥有1200w的额定功率并通过80plus白金牌认证,堪称是整机的强大“心脏”,更预留了两个pcie5.1接口,搭配了一根可支持600w的12vhpwr模组线,旗舰卡皇4090也能轻松应对。除此之外,这款电源的风扇还支持智能启停,实现了性能和静音的平衡,关机后还会持续运转60秒,延缓高温余热带来的老化损耗,可以说是各方面兼顾的的一款旗舰产品。
作为14代最强cpu,酷睿i9-14900k最好搭配水冷散热器。我们选用的是航嘉mvp海神v360一体式水散热器,水冷头内置高寿命陶瓷轴承的静音水泵,底部配备高密度铲齿铜底,增加接触面积同时提升传热效率;冷排设计有12条水道和s型排列的鳍片,提供更强散热,搭配三个长寿命液压轴承的pwm风扇,进一步提升散热效率。还支持argb灯效,可以打造完美灯效。除此之外,水冷头反正面还配备2.4寸ips lcd显示屏,既能实时显示cpu的温度和功耗,也能显示自定义的图片和多种格式的视频内容,把老婆们请进机箱更加赏心悦目。
下面还是来看看本次评测的显卡参数,目前最新的gpu-z为2.57版本,参数识别较为详细。
nvidia geforce rtx 4080 super拥有10240个cuda,boost频率为2550mhz,不过从目前aic的oc版显卡来看,这次nvidia预留了不少超频空间。
显卡采用16gb gddr6x显存,位宽为256bit,这里值得注意的是,虽然显存位宽rtx 4080 super与rtx 4080相同,但显存频率则是刚刚发布的super显卡更高,所以整体带宽相对于rtx 4080的716 gb/s也要更高。
光栅单元和纹理单元为112和320,其中光栅单元rtx 4080 super与rtx 4080相同,但纹理单元更多。
4 理论性能测试
本次测试nvidia geforce rtx 4080 super主要对比它的上下型号,rtx 4080以及rtx 4090。
下面先进行的是用来衡量显卡dx11理论性能的3dmarkfs套装:fs,fse,fsu三者分别对应显卡在1080p、2k、4k的理论性能,取显卡分数实际测试结果如下:
在传统的3dmark“三板斧”测试中,nvidia geforce rtx 4080 super对比rtx 4080的差距不大,在2%左右,距离卡皇rtx 4090依然有较大的差距。
下面再来看看3dmark中新增的一些具体应用场景的测试。
speed way这项测试结合了实时光线追踪和传统渲染技术来测量显卡性能。场景含有光线追踪反射、实时全局光照、网格着色器、体积照明、粒子和后处理效果。所以sw的测试基本可以看做次世代3a游戏基准。
nvidia geforce rtx 4080 super对比rtx 4080,从1080p分辨率到8k提升依次为:4%/3%/4%/1%。
另外我们使用3dmark刚刚更新的dlss 3进行了相关性能测试。
这一项测试更偏向实际的游戏帧数跑分,所以整体基数较小,nvidia geforce rtx 4080 super的综合提升在2%左右,不过反映到实际帧数则并不明显。
从整体的理论测试成绩来看,传统的fs/ts/pr三项测试,nvidia geforce rtx 4080 super fe相比rtx 4080综合提升在2%左右,如果是oc版显卡,能够达到5%左右;另外相比rtx 4090综合差距在25%。
5 常规游戏 性能测试
由于本次rtx 40系加入了dlss 3新技术,所以后面会进行单独测试,这里依然选择主流的几款3a大作进行游戏性能对比。
首先我们测试了近期非常热门的《幻兽帕鲁》,这款游戏自带dlss,所以n卡要更轻松一些。另外游戏虽然采用了虚幻引擎制作,但目前ea阶段游戏内容整体还是比较糙的,所以对于显卡的要求并没有很高。
我们选择最高画质进行帧数实测,nvidia geforce rtx 4080 super即便在4k分辨率下都能达到较高的电竞帧率,不过此类模拟建造类游戏,会随着世界内容的增多逐渐变卡,所以以上测试成绩仅供参考。
《幻兽帕鲁》游戏共有5个画质档位,其中最高和最低差距较大,主要区别在于光线渲染、抗锯齿和植被,在材质和贴图方面差别较小。
接下来便是一些老朋友,在《极限竞速:地平线5》中,其中nvidia geforce rtx 4080 super相比rtx 4080提升较为明显,不过在1080p分辨率下受制于cpu瓶颈,三款显卡的分数几乎相同,2k分辨率下rtx 4090依然能够摸到cpu瓶颈,而4k分辨率则能够较好的反映出三款显卡的真实水平。
在《刺客信条:幻景》中,nvidia geforce rtx 4080 super相比rtx 4080的提升分别为:1080p提升3%;2k提升4%;4k提升6%,综合提升4%。
在《无主之地3》中,nvidia geforce rtx 4080 super相比rtx 4080的提升分别为:1080p提升9%;2k提升8%;4k分辨率提升8%,综合提升8%。
《光明记忆:无限》的光追测试软件是独立于游戏的测试工具,比游戏中用到的光线追踪技术更多,测试条件为“rtx最高/dlss质量”。
性能方面,nvidia geforce rtx 4080 super相比rtx 4080的提升分别为:1080p提升8%;2k提升6%;4k提升2%,综合提升5%。
在另外一款国产游戏《边境》的跑分软件中,情况基本与《光明记忆:无限》相同,测试条件均在“rtx最高/dlss质量”下进行。
在《边境》中,nvidia geforce rtx 4080 super相比rtx 4080的提升分别为:1080p提升11%;2k提升6%;4k提升7%,综合提升8%。
在“游戏测试标杆”的《赛博朋克2077》中,由于增加了最新的光追超速模式,成绩比较多,我们分别对比不同模式下的帧数。
nvidia geforce rtx 4080 super在1080p分辨率下光追超速模式可以达到98帧的惊人成绩,作为目前光追游戏的标杆,《赛博朋克2077》中的超速模式被誉为光线追踪的终极形态,添加了全新的路径追踪,效果相比光追超级模式也有了质的飞跃。严格来说,它并不是本世代的游戏“产物”,所以更多的是为游戏开发者作为技术前瞻。
另外在2k分辨率下,我们常接触的光追超级模式同样能够达到百帧,光追超速模式则能够达到69帧的流畅水准。
最后的测试中我们在《赛博朋克2077》体会一下不同的光影模式。
从上至下依次为超级画质/光追超级/光线追踪:超速模式。可以看到光线追踪:超速模式相比光追超级更贴近于真实效果。它模拟了真实的光线路径,其实相比之前的光线追踪模拟了更多光线在不同表面的反射,完整的计算出了场景的真实光照,避免了上一代光追中出现“死黑”的情况。
另外《赛博朋克2077》更新了dlss 3.5,支持光线重建技术。在上面的测试图中不难发现,光线重建能够更加精准的计算出反射部分的效果,接近于亮面金属表面的反射中,未开启rtx能够看出画质明显的区别,不再赘述。重点在于dlss 3.5的开关效果,除了广告牌上所显示的内容更清晰外,放大后能够看到远处电线以及工业区建筑的细节外观。
在常规的街道水面反射中,dlss 3.5不仅正确地反射了远处的灯光,并且可以更精细的表现出灯管的轮廓。而且截图中的烟灰缸,在rtx on/dlss off的情况下,与地面接触的部分阴影明显确实,在开启dlss 3.5后,也有更为正确的物体关系。
6 dlss 3性能测试
截止目前,超过 500 款游戏和应用已支持 rtx 技术。
其中《龙之信条 2》、《灰区战争》、《半条命 2》rtx 版、《地平线:西之绝境》、《层层恐惧》、《人中之龙7外传:无名之龙》、《人中之龙8》、《纳克园:最后的乐园》、《pax dei》、《星际矿工》和《王权与自由》均将支持 dlss 3 技术,其中有些游戏将在今年发布,有些游戏则将在今年更新对 dlss 3 的支持,为配备 geforce rtx 40 系列显卡的游戏玩家带来前所未有的性能和更高的图像质量。
本次dlss 3增加了1% low fps和延迟的测试,1% low fps则是将一段时间内的帧数从大到小排列,取最小的1%出来,再对这1%的数求平均值。
本次我们分别对《赛博朋克2077》,在三档画质下进行了dlss 3的帧数测试,所有档位均开启dlss质量记录帧数。
可以看到在2k分辨率下,即便是光追超速模式,开启dlss 3后依然能达到百帧的成绩,这对于游戏画面的进步堪称史诗级。
dlss 3技术主要针对于cpu瓶颈的游戏,所以也能够看到在越低的分辨率,帧数提升越大,其中1080p能够达到40%左右。
《星空》在1.8.86大版本更新后,加入了dlss 3,整体来看效果非常好,即便在4k分辨率下也能够达到111帧的流畅水准。
其中1080p分辨率下dlss 3相比dlss 2提升达到44%;2k分辨率提升56%;4k分辨率提升44%。
虽然目前《星空》饱受批评的频繁读图依然没有修改,但至少使用n卡的用户,画面流畅度能够大幅提升了。
《地平线5》也是显卡测试的老朋友了,其出色的优化让很多入门级产品都能跑出较高的帧率。在nvidia geforce rtx 4080 super也有较明显的体现。在3种分辨率中,开启dlss 3相比dlss 2的提升分别为41%/29%/14%。
最后我们也测试了《巫师3:狂猎》,这款游戏在加入了光线追踪后,对于配置的要求直线上升。
其中nvidia geforce rtx 4080 super在4k分辨率下,开启dlss 3相比关闭dlss,提升达到了108%;相比dlss 2的提升也达到了53%。另外在开启dlss 3后会强制开启reflex boost,能够大幅减少画面延迟。
7 生产力工具测试
v-ray
在生产力工具上,我们测试了最新版本的v-ray渲染器,选择使用gpu渲染的cuda测试和rtx测试,成绩如图。
blender
blender是一款专业的三维渲染软件,目前推出了固定的benchmark跑分软件,省去了安装软件下载素材的麻烦。软件会自动渲染测试monster/junkshop/classroom共三个场景。
上图为nvidia geforce rtx 4080 super显卡得分,分别为4475/2103/2192分,平均2923分。
d5渲染器
d5是一款国内实时光线追踪渲染器,支持多种建模软件直读,包括sketchup、3ds max、rhino、revit、archicad、blender、c4d等。目前也已经支持dlss 3,下面我们分别看看帧数和功耗的情况。
选择软件自带的默认场景【简约客厅】
在实时帧数表现上,由于d5采用实时gpu渲染,所以压力全在显卡。可以看到在4k分辨率下,即便是nvidia geforce rtx 4080 super也是ppt的状态,仅有21帧。而开启dlss 3后,帧数提升可达到262%左右,非常暴力。
功耗方面,nvidia geforce rtx 4080 super的tdp为320w。关闭dlss的情况下,实际平均使用功耗为282w,而在开启dlss 3后,功耗仅有211w。更低的功耗,更高的帧数,可以说dlss 3不仅对于游戏玩家有非常大的帮助,对于内容创作者来说,也是更必要的技术加持。
8 on1 resize ai 2023测试
本次测试新增了on1 resize ai 2023的测试,它是一款ai图像修复软件,包括图片缩放,内容填充等功能,同时它也可以作为ps等软件的插件形式存在,非常方便快捷。
测试选择nvidia提供的5张高分辨率图片进行,我们将在原图片的尺寸上直接放大200%,可以看到放大后的图片尺寸已经达到了12000×8000。
使用nvidia geforce rtx 4080 super fe进行ai计算后,5张图片最终用时34641ms,即35秒左右。
放大后使用nvidia icat进行对比,左侧为使用on1 resize ai 2023进行放大200%的图片,可以看到在车胎部分的编码明显比原始图像更清晰。
在另一张对比中图中,使用ai放大后,树叶的脉络更清晰,整张图片看起来也更锐一点。对于一张放大200%的图片来说,确实令人惊奇。
ai对于日常生活的应用的确更加方便,在我们以往的认知中,图片尺寸放大必然会损失质量。但经由ai的加持,反而更清晰,这对于老照片的修复,起到了更加便捷的作用。
9 aigc测试
ai时代不知何时已经离人们的生活越来越近,小到文本改写,大到各种生成式ai。此前我们已经测试过stable diffusion的ai绘图能力,不过目前nvidia推出了全新的tensorrt插件,可以充分调用tensor算力,下面我们来测试一下nvidia geforce rtx 4080 super fe在这方面的性能表现。
【注:所有测试默认开启xformers优化方案】
首先是较为基础的sd1.5模型测试,在sd1.5中模型的输出分辨率为512×512和768×768。我们将导出【trt】引擎,并记录使用默认模型渲染,以及【trt】模型渲染的批次时间。
根据nvidia提供的统一参数进行输出,以便记录结果。其中采样方式为:euler a;采样步骤:50;batch count:10
【默认sd1.5模型】nvidia geforce rtx 4080 super 运算时间 22.2s 约合 2.22秒一张图
【trt sd1.5模型】nvidia geforce rtx 4080 super 运算时间 14.7s 约合 1.47秒一张图
第二次测试为的sdxl模型测试,sdxl模型将在1024×1024分辨率进行训练,相比sd1.5来说图像大了2倍,它可以提供更准确的关键字匹配,从而获得更真实的结果。但由于更高的原生分辨率和模型复杂性,sdxl模型的计算强度明显更高。
我们按照相同的参数进行设置,但尺寸规定为1024×1024,下面看看nvidia geforce rtx 4080 super fe的表现如何。
【默认sdxl模型】nvidia geforce rtx 4080 super 运算时间 1m44.4s 约合 10.44秒一张图
【trt sdxl模型】nvidia geforce rtx 4080 super 运算时间 1m11.4s 约合 7.14秒一张图
在更复杂的模型中,tensorrt引擎的优势愈发明显,单张图片的出图速度能够提高3秒左右。
生成式ai对于普通用户来说,可以让没有绘画功底的人,独立创作出一幅不亚于艺术家的作品,让每个人都成为自己生活中的艺术家。
目前生成式ai也仅在初步发展阶段,后续对于个性化教育、医疗保健、语言处理,甚至金融分析等等场景,相信都有ai的用武之地。
10 rtx 视频超分辨率(rtx video super resolution)测试
目前rtx 视频超分辨率(rtx video super resolution)已经在部分浏览器中进行测试,首先玩家需要更新到nvidia最新驱动,在nvidia控制面板中的【调整视频图像设置】可以看到最新的rtx 视频增强超分辨率。
rtx 视频超分辨率是 ai 图像处理的突破,它超越了传统的边缘检测和特征锐化技术,极大地提升直播视频内容的质量。
开启rtx 视频超分辨率不仅需要最新版驱动,还需要使用rtx 40或30系列gpu,并且几乎适用于google chrome和microsoft edge浏览器中的所有视频内容(浏览器也需要更新到最新版本)。
开启后,目前已知的打开youtube或者b站,都可以享受到rtx vsr效果的加成。
如果不确定,在全屏播放视频时,可以打开任务管理器,看到gpu负载增加,即为开启成功。
我们打开youtube随意观看视频,在打开rtx vsr后,可以清晰明显的看到水下珊瑚的质量明显提高,边缘更为清晰,并且极大减少了失真现象。
(点击放大查看原图)
在下面这幅图的对比中,可以明显看到开启rtx 视频超分辨率后,胡须明显更顺滑,已经看不出马赛克。
不过需要注意的是,rtx 视频超分辨率在低分辨率下效果会更明显,如果本身观看的视频为1080p或2k以上,则基本很难看出区别。
这对于一些网速不够快,只能看低分辨率视频的用户,或者视频片源本身不够清晰的情况,帮助非常大。
11 温度及功耗测试
功耗测试中,我们选择furmark软件进行拷机测试,并采用gpu-z检测温度,功耗仅计算显卡自身。
可以看到nvidia geforce rtx 4080 super这张显卡通过一个半小时左右的拷机测试,温度在65℃左右,热点温度在74℃左右。
游戏动态功耗测试
本次我们在拷机测试中最大板载功耗为300w左右,tdp一直在95%左右徘徊,如果满载的话在320w左右。不过由于不同游戏负载不同,gpu的实际功耗是动态变化的,类似于fps随时间的变化,rtx 40系列很难触及功耗墙。
nvidia geforce rtx 4080 super 3a游戏平均功耗
在实际的游戏功耗测试中,我们选择《光明记忆:无限》自带benchmark,光追最高、dlss质量、4k分辨率,来拉满显卡的性能极限,检测我们实际应用场景的功耗。
可以看到nvidia geforce rtx 4080 super平均功耗为288w,在实机测试中,基本达不到320w的峰值功耗。
12 直降1400元 ai新选择游戏新旗舰
本次rtx 4080 super的升级之处,其实对于玩家来说反而是“降价”,1400元的差价已经相当于一张入门显卡的价格了。虽然8099元的官方建议售价依然算不得便宜,但它毕竟是一张准旗舰产品,性能在线。
本次发布的rtx 4080 super相比于super系列的另外两张显卡,性能提升幅度没有那么明显,与rtx 4090相比差距还是挺大的;从参数本身来看,也更接近于原型卡rtx 4080。
作为一款80级产品,它定位4k分辨率下传统3a游戏电竞级帧率,即便是光追游戏,在4k分辨率下也能够达到流畅的水准。
现在搭配最新的dlss 3.5,即便是过去遥远的光追游戏,玩家也能畅通无阻的流畅体验。或许等下一代rtx 50级显卡发布时,加入“路径追踪”的光追游戏,已经能够成为主流显卡都可以体验到的效果。
ai方面,由于本次rtx 4080 super最后解禁,所以对比目前整个super系列来说,成绩相当明显。其中sd对比rtx 4070 ti super单张图片都要快1秒左右;而相比rtx 4070 super更要快3-6秒左右。虽然单独来看差距不大,但sd作图通常会有多次反复调试的动作,直到最后出图,仍要多批量多次生成,才可能有满意的作品。
除此之外,在本次新增的on1 resize ai 2023测试中,rtx 4080 super相比这两张卡同样有着质的提升。
所以综合来看,如果你是aigc重度爱好者的话,rtx 4080 super不失为一张趁手的生产力工具;如果你只是偶尔玩一玩,那么本次发布的super系列也都不失为一个好选择。
评论