引言 在阅历了两年的矿潮折磨后,玩家终于迎来了一丝曙光,RTX 40系新显卡的发布既带来突飞猛进的性能提升,又搭载了眼前一亮的全新黑科技。无论是TSMC 4N NVIDIA定制工艺还是强悍的DLSS3技术,都让玩家对RTX 4090旗舰显卡的实践表示充溢等候。
而随着NVIDIA GeForce RTX 4090 Founders Edition公版显卡的解禁,各家AIC厂商也是百花齐放,推出了形态万千的非公RTX 4090,耕升作为显卡产品范畴里具有相当深沉资历的显卡品牌,自然也不会缺席这次顶级显卡产品盛会,我们也有幸在第一时间收到了耕升 GeForce RTX 4090 炫光 OC显卡,一同来看看这款性能怪兽的表示究竟如何。 耕升 GeForce RTX 4090 炫光 OC(简称:“耕升 RTX 4090 炫光 OC”) 外观鉴赏:耕升 GeForce RTX 4090 炫光 OC 首先来看看外包装盒,耕升 RTX 4090 炫光 OC的包装盒体积庞大,正面印有耕升的Logo以及GeForce RTX 4090字样,包装盒的正中间是大大的X型标记,满满的炫酷科技风,黑、灰银、红、蓝、粉等颜色的搭配更是能抓住人们的视野,包装设计相当有特征。
包装盒的底部印有这一代显卡运用的先进技术,如DLSS、光线追踪、NVIDIA Reflex以及NVIDIA Studio。
翻开包装盒后,映入视线的就是耕升 RTX 4090 炫光 OC本体,附赠的还有电源转换线和RGB同步线,今年的RTX 4090有几斤几两大家也都见到,所以耕升 RTX 4090 炫光 OC还附赠了显卡支架,其他的配件则是运用手册和阐明书等。
外观方面,耕升 RTX 4090 炫光 OC持续了前作RTX 3090Ti的设计作风,简约沉稳,散热器外壳为波浪形的全黑配色设计,材质宛如暗黑色的钢琴,与往常很多棱角分明、硬朗线条的产品不同,耕升 RTX 4090 炫光 OC的设计更圆润更有层次感。
显卡顶部印有GEFORCE RTX 字样,底下是一整排的出风口,横跨整个显卡顶部,加速热量排出。并且这一代的RTX 4090个头不小,耕升 RTX 4090 炫光 OC为3.5槽设计,装机时要留意兼容性。
显卡正面是三把风扇组成的第二代“炫之黑曜石”散热器,左右两侧的风扇为102mm,中间的为92mm。白色的扇叶与全黑的波浪形导流罩,简约而又不失美感,激烈的对比感增强了产品的视觉效果。
与其他非公的RTX 4090相似,背板为全金属掩盖设计,上面印着“GeForce RTX”的字样和 NVIDIA 中心AIC之一“耕升”的英文称号。
并且显卡背板的右半部分还是镂空式设计,隐约能够看见内部的散热鳍片,增加内部空气对流,散热风扇能够快速带离内部热量,降低显卡温度,稳定释放性能。
显卡的接口为三个DP1.4a和一个HDMI2.1a,即便是外界到8K的显现器,这些接口也足够,并且这代显卡最多支持四联屏输出。
在供电方面,耕升 RTX 4090 炫光 OC运用的是12VHPWR供电接口,电源没有此接口不用担忧,显卡配件内有NVIDIA特地配送的4*8pin转12VHPWR电源转换线。另外这一代的显卡倡议搭配ATX3.0规范额定功率满850W以上的电源,确保显卡能在稳定功率下运用。
玩灯依旧是耕升的强项,这一代也不例外。正面纯黑色的导流罩表明平平无奇,其实底下是满满当当的ARGB灯珠,装置点亮后能够呈现多如繁星的炫彩灯光。
而显卡外壳是用半透明的塑胶材质制造,并且在名义采用了PCB板花纹设计,显卡在通电运转时会呈现出电路板的纹路,搭配上动态的RGB灯效,效果冷傲,极具未来感。
并且这一代显卡的RGB经过5V/3针线材衔接后还能够完成全局灯效同步,运用自家的GW-SOUL软件还能自定义灯光效果。
喜欢RGB,喜欢玩灯的玩家,不要错过这张有“夜店卡皇”之称的耕升 RTX 4090 炫光 OC,它是目前发光面积最大的RTX 4090显卡,没有之一。
显卡拆解:耕升 GeForce RTX 4090 炫光 OC 卸下背板的螺丝就能够拆下耕升 RTX 4090 炫光 OC硕大的散热器,首先映入视线的是X型的散热鳍片固定器,在这背地就是那颗目前最强的GPU中心——TSMC 4N NVIDIA定制工艺的AD102-300-A1中心。
耕升 RTX 4090 炫光 OC采用了类公版的PCB设计,PCB本体不算长,相比前代RTX 3090Ti还要再小一些,但是却容纳了更多的元器件,并且采用越肩设计,比普通的显卡都要再高一些。
PCB的背面则简约不少,主要是一些控制芯片,中心背部电容位置运用了四个POSCAP(导电聚合物钽电容)替代四组MLCC(一组10个MLCC),整体电气性能更强。
PCB的正中间是RTX 4090 GPU专属的AD-102-300-A1中心,而其周边则是12颗GDDR6X显存。
显存来自美光,型号为2MU47 D8BZC,单颗显存容量2GB,12颗组成24GB超大显存。
供电位置被布置在PCB的两端,耕升 RTX 4090 炫光 OC运用了18相中心供电+4相显存供电设计,稳定输出,耐久耐用。
每相供电均采用独立的DrMos芯片,型号为BLN3-2N2D
供电控制芯片共三颗,均布置在PCB背面,型号分别是:uP9512、uP9521,以及uS5650Q。其中uP9512与uP9521共同管理中心供电,能够做精密化的供电管理,而uS5650Q则是主要担任显存供电部分。
看完了PCB电路设计,下面来看看耕升全新设计的第二代“炫之黑曜石”散热器。
这一代的散热器相当庞大,不只能够给GPU散热,还为显存、电感以及MOS管等中止散热,保障耕升 RTX 4090 炫光 OC能够全力输出。
能够看到显存和供电部分都配上了高系数的导热垫辅助散热,GPU中心也抹上了厚厚的硅脂,显存位置更是紧贴真空腔均热板,超高的散热效能助力这一代显卡强劲的性能释放。
第二代“炫之黑曜石”散热器用的是两段式的散热模块,两边均升级了特大面积的散热鳍片。
内建了8根复合式热导管,S型的热导管贯串了整个散热主体,完成超高效的导热设计。
8根热导管加上大面积的散热鳍片,这个散热配置看着就不会差,并且背板末端部分还是镂空设计,搭配散热风扇,还能进一步降低显卡温度。即便是超频,也能熟能生巧。
第二代“炫之黑曜石”散热系统不只升级了外观和灯效设计,还升级优化了耕升“炫风之刃”散热风扇的扇叶。散热器由2个102mm和1个92mm的风扇组合而成,经过升级后,提升风流量的同时还能减低声噪,更高速有效地散热,轻松应对高达600W TGP功耗下的温度。
测试平台引见
耕升 RTX 4090 炫光 OC作为旗舰级性能的显卡,想要衬得上它的,自然也是顶级的配置,我们选用了Intel目前最强的处置器i9-12900K,微星MEG Z670 ACE主板,以及金士顿的64GB DDR5-6000高规格内存。
测试前,经过GPU-Z对显卡的运转状态以规格参数中止再次的检查,避免由于运转状态及参数不正确而招致测试成果不正确。同时也能经过GPU-Z所呈现的数据来看看耕升 RTX 4090 炫光OC显卡更为细分的规格参数。另外测试前我们确认主板BIOS里的Resizable BAR功用开启,这样才干发挥出RTX 4090显卡强劲的性能。 航嘉MVP P1200 80PLUS白金牌全模电源
电源方面运用了航嘉MVP P1200 80PLUS白金牌全模电源,其是一款1200W额定功率的电源,能够满足各玩家顶级平台的供电需求。
同时还提供了一条原生12VHPWR模组线,能够提供600W供电需求,满足RTX 4090显卡。
理论性能测试
从3DMARK理论性能来看,耕升 RTX 4090 炫光 OC对比上代RTX 3090 Ti有着更为出色的性能表示,首先是代表DX11的Fire Strike测试,固然没有完成性能的翻倍,但提升也在70%左右。而在代表DX12的Time Spy测试中,RTX 4090与RTX 3090Ti也是拉出了远远的差距,Time Spy Extreme差点突破两万分大关。最让我惊喜的还是DLSS项目,不开启DLSS时,帧数曾经接近前代开启DLSS的帧数,而RTX 4090在开启DLSS后,帧数直接翻倍。实测下来,RTX 4090的性能提升可谓庞大。 游戏性能
从上面的理论性能来看,这一次RTX 4090的性能提升是我历年来见过的最高的一次,相比其他显卡的性能简直是跨时期级别的提升,这也让我十分猎奇这款显卡的实践游戏性能。 这种级别的显卡我想就没必要测试2K了,这次我们直接在4K分辨率下测试,选用了大量光线追踪游戏和3A大作,能够看到在号称显卡杀手的《赛博朋克2077》中,前代旗舰仅有48 FPS,而耕升 RTX 4090 炫光 OC曾经能够在超级光追下跑出80 FPS的成果。而在《极限竞速:地平线5》中,RTX 4090的性能大约比RTX 3090Ti强出74%。实测下来,绝大部分的游戏在耕升 RTX 4090 炫光 OC下都是以高流利度运转的。以至在DLSS技术的加持下,能抵达了120 FPS以上,这样我们配备上4K144显现器,那是真的爽了。
DLSS3性能测试
Ada Lovelace架构最大的亮点优势就是支持最新的DLSS3,这里我们也一并测试一多款DLSS测试程序与游戏。开启DLSS3后,耕升 RTX 4090 炫光 OC的性能表示相比前代旗舰RTX 3090 Ti有简直翻倍的提升,4K分辨率下曾经能够做到183 FPS的成果,完整能够满足4K@144的电竞需求,即便将分辨率提升至8K,RTX 4090的帧数表示也迫近百帧,8K电竞指日可待。
同样的F1 22游戏中,4K分辨率下仅TAA设置的游戏流利度仅为75,这阐明了RTX 4090不开启DLSS功用的游戏性能也很强。但是当开端DLSS3后,无论是质量档还是性能档,其游戏流利度都高于120 FPS,关于一款赛车游戏来说,这流利度是真再爽不外了。
DLSS3-F122-DLSS-Balance
DLSS3-F122-DLSS-Perfoemance
DLSS3-F122-DLSS-Quality
DLSS3-F122-DLSS-SuperPerfoemance
DLSS3-F122-TAA Unreal Engine 5 Lyra DLSS3测试
Unreal-Engine-5-Lyra-DLSS3-OFF
Unreal-Engine-5-Lyra-DLSS3-ON 而最后我们还测试了应用Unreal Engine 5引擎打造的Lyra DEMO,此DEMO除了能够支持最新的DLSS3技术外,还带上了NVIDIA Reflex。笔者这里上传了两个图片给大家看看Lyra DEMO里的DLSS3开启与关闭的画质对比,游戏流利度自然是DLSS3开启后提升较为明显的,抵达192 FPS,而PCL延迟也进一步降低到了50ms的水平。
创作者性能测试
视频制造方面,我们测试了PCMAK10整机性能、UL Procyon、以及PugetBench的测试,由于Photoshop、Premiere以及After Effect这三个软件关于显卡的请求都不算太高,显卡加速只起到辅助作用,所以耕升 RTX 4090 炫光 OC在制造视频方面的提升关不太明显,与上一代旗舰RTX 3090Ti相比,提升幅度约13%,而RTX 4090真正强悍的中央在于支持新的编解码方式,下面我们也会中止细致的测试。
来到消费力方面,我们先来看看专业级别的消费力会是怎样样的表示。Blender与OctanceBench测试中耕升 RTX 4090 炫光 OC性能表示同样的给力,相比前代RTX 3090Ti有85%以上的性能提升。即便是在SPEX的专业范畴测试中,耕升 RTX 4090 炫光 OC也没让人失望,比上代旗舰有约55%的性能提升。特别是此款显卡才卖1W3左右,这价钱跟这性能,只能说搞工业设计的用户这次真的能够换显卡了,这代RTX 4090真的能够显著提升你们的渲染效率。
这代RTX 4090的一大亮点就是支持AV1编码,AV1相比H.265能够以更低带宽、更小文件提供更高质量的画质,并且完整开放没有任何受权费用,正陆续得到更多平台、软件的支持。所以我们再做了一个RTX 40系列显卡内置的第8代NVENC双编码器的测试,测试片源来自NVIDIA提供的8K片源与工程文件,耕升 RTX 4090 炫光 OC在8K30 AV1视频输出到H.265格式视频时明显有着更短的视频,特别是8K30规格的视频用时更短一些。而且还支持AV1格式的输出,这真实是再好不外了。即便是相同的H.265格式,耕升 RTX 4090 炫光 OC的导出速度相比前代旗舰也快了70%左右。 同时MAGIC MASK工程文件的测试与ON1 Resize的项目测试中也表明,耕升 RTX 4090 炫光 OC内置的第8代NVENC双编码器很强大,而且应用RTX 40中心里的黑技术,能够让渲染的时分更短,大大的加快效率。
超频 这一代的RTX 4090超频才干相当出色,固然英伟达曾经给RTX 4090足够高的频率,出厂最高可达2520MHz,不外依旧有继续超频的空间。所以我们手动对这张显卡中止超频,简单小超一下,将GPU中心频率拉至2910MHz,此时跑3DMark的Port Royal光追测试,显卡得分26734分,相比默许状态下的26105有了小幅提升。
而关于笔者来说,这肯定是不满足的,所以继续往上超频,GPU中心频率直接拉到3015MHz,这在以前是想都不敢想的,曾经接近部分CPU的频率了,超频后3DMark的Port Royal光追测试显卡得分27073,相比默许状态下提升了约4%。能够看到这代RTX 4090,即便不超频曾经有十分不错的性能表示了,超频后的性能提升也比较可观。
功耗与散热 最后对耕升 RTX 4090 炫光 OC中止烤机测试,测试时室温24℃,Furmark甜甜圈设定为1280 x 720分辨率。在烤机15分钟后,显卡占用率抵达了99%,满载功耗446.7W,显卡运转频率顶着2910MHz在跑,中心满载温度稳定在64℃,显存满载温度为62℃,果真全新的第二代“炫之黑曜石”散热器的效能强劲,用来压制这款显卡还是绰绰有余的。
相比FE公版,耕升 RTX 4090 炫光 OC的温度表示和噪音表示都更好,GPU温度有将近10℃的差距,显存更是接近20℃差距。并且得益于台积电4nm工艺,这一代的RTX 4090在同等TDP下,性能更强的同时,温度也大幅降落。 总结
首先是外观方面,这一代的耕升 RTX 4090 炫光 OC不只有着极具未来感的外观设计,颜值上也保存了前代的大面积炫光RGB,至今给我留下深化印象,能够说是“棱角分明当道时期的锐丽异类”,即便是对RGB不感冒的玩家在看到耕升 RTX 4090 炫光 OC时,也会被它炫酷的RGB灯效所吸收。
评测完能够看到这代RTX 4090后,它的性能也给我带来不小的惊喜,耕升 RTX 4090 炫光 OC相比前代旗舰提升庞大,性能的确称得上地表最强,至少现阶段,还没有对手能够撼动它消费级卡皇的宝座。散热效能也是前所未见,如此强悍的性能,温度控制却相当到位,不外60多度而已,从里到外都彰显了高端旗舰的风范。
假如你想置办一款性能最强、颜值在线、温控到位的显卡,那么耕升 RTX 4090 炫光OC一定是你的最佳选择。DLSS3黑科技加持带你体验4K光追游戏的魅力,全新升级的RT Cores和Tensor Cores邀你一同领略AI范畴、视频转码等方面的代际飞跃。 最后是价钱方面,耕升 RTX 4090 炫光批发报价为12999,与FE公版持平;耕升 RTX 4090 炫光 OC批发报价13999。
Ada Lovelace架构解说 Turing、Ampere上两代架构中心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那Ada Lovelace定特殊人,度娘一下果真,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦喔。
从Turing架构开端,NVIDIA初次在显卡中参与了加速光线追踪的RT Core单元,以及面向AI推理的Tensor Core单元,这反动性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在参与新一代的二代RT Core和三代Tensor Core基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到Ada Lovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代 RT Cores与第四代 Tensor Cores单元,同时参与众多新颖的黑科技,从执行效率来说Ada Lovelace架构是上代Ampere架构的2倍以上,以至光线追踪才干更是抵达了恐惧的4倍性能。 在讲述中心架构前,我们先了解几个关键词:GeForce RTX 4090、Ada Lovelace、TSMC 4N、608mm、760亿个晶体管、2倍性能功耗比。
大家带着几个关键字来看上面的【显卡规格参数对比】表格,就能够更容易读懂上述表格了。最新一代的桌面显卡GeForce RTX 40系列均采用全新的Ada Lovelace架构中心, GeForce RTX 4090的中心是 AD102,目前Ada Lovelace架构中心中最为强大的,具有760亿个晶体管、16384个CUDA中心和24 GB高速美光GDDR6X显存。 而GeForce RTX 4080 16GB中心代号为AD103-300,具有9728个CUDA中心和16 GB高速美光GDDR6X显存,显存位宽也缩减到了256Bit;GeForce RTX 4080 12GB规格要低一些,中心代号为AD104-400,具有7680个CUDA中心和12GB 美光 GDDR6X显存,显存位宽仅为192Bit。这里由于NDA缘由这里我们不再多说GeForce RTX 4080 系列相关的信息。
得益于NVIDIA与台积电深度协作的TSMC 4N制程工艺,GeForce RTX 4090中心面积仅是608mm(上代RTX 3090 Ti 628mm),在更小的中心面积下却能塞下多达760亿个晶体管,比上一代的Ampere架构多出了约70%晶体管数量。 值得留意的是,制程工艺的提升不单能具有更多的晶体管,其中心频率更是能跑得很高,GeForce RTX 4090 Boost频率就曾经抵达了2520MHz,这样在中心频率与高规格的双向保障下完成了比上代显卡高达2倍的性能功耗比。
从GTC2022秋季大会中,其实我们就曾经发现了,目前GeForce RTX 4090显卡中配备的AD102-300中心其实并非完好的AD102中心。完好的AD102中心应该包含了12 个GPC (图形处置集群)、72 个TPC (纹理处置集群)、144 个SM (流式多处置器) 和个带有 12 个 32Bit显存控制器的 384 Bit显存位宽。
再来看上面的GeForce RTX 4090架构图,和完好版本的AD102中心对比起来就很容易看出差别。首先,GeForce RTX 4090中心代号为AD102-300,其具有9个完好规格的GPC (图形处置集群,每个内建6个TPC),与2个非完好的GPC (图形处置集群,每个内建5个TPC),共组成了64个TPC ,那么SM单元自然就是128个了。至于显存位宽方向那是相当的完好——384Bit。 假如你还是不太懂,这里笔者就逐一为了Ada Lovelace架构显卡的构成。
刚才我们曾经说到,一个完好的Ada Lovelace架构AD102中心内部具有12个GPC,而每个完好的GPC中包含了一个专用的Raster Engine(光栅化引擎),两组ROPs共16个ROP(光栅化处置单元),以及6个TPC与12个SM单元。 全新的SM流式多处置器
Ada Lovelace架构中最大的亮点之一:全新的SM流式多处置器,每个SM包含了128个CUDA中心、1个第三代的RT Cores,4个第四代 Tensor Cores(张量中心)、4个Texture Units(纹理单元)、256 KB Register File(寄存器堆),以及128 KB L1 数据缓存/共享内存子系统,于是这一个全新的SM单元有着超越上一代2倍之的性能表示。
过去的Turing架构INT32 计算单元与FP32数量是分歧的,而两者相加才组成了64个CUDA中心。但是Ampere架构开端,左侧的计算单元完成了FP32+INT32的计算单元并发执行,也就是说CUDA中心数量翻倍到了128个。 再来看看Ada Lovelace架构的SM,FP32/INT32的计算单元组合,同样完成了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForce RTX 4090具有128个SM,16384个CUDA中心,那你也就应该明白达82.6 TFLOPS的着色器才干是如何完成的了,比上一代的RTX 3090 Ti显卡的40 TFLOPS,还真是提升了两倍有多。
另外缓存方面Ada Lovelace架构也中止了大规格的提升,首先每个SM单元中单独配上了128 KB的缓存,这样RTX 4090显卡中就完成了163MB L1/共享内存。其次中心的二级缓存中止中止了重新的设计,并且完好AD102中心是96MB二级缓存,而RTX 4090显卡具有72MB二级缓存,也可能是因而Ada Lovelace架构中心对显存位宽的依赖性并不高。 技术解说:第三代RT Cores与第四代Tensor Cores
以为刚才的CUDA数量与超大L2缓存就曾经很猛了,完成上Ada Lovelace架构最大的提升还是在第三代 RT Cores与第四代 Tensor Cores身上。 第三代 RT Cores
RT Cores用于光线追踪加速,第三代 RT Cores 的有效光线追踪计算才干抵达 191 TFLOPS,是上一代产品 2.8 倍。
在Ampere架构中,第二代RT Cores支持边疆交叉测试(Box Intersection testing)和三角形交叉测试(Triangle Intersection testing),用于加速BVH遍历和执行射线三角交叉测试计算,固然光线追踪处置才干曾经比初代的Turing架构中心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处置方式很难再以更高效率、正确反响出的理想世界中的光线,特别是光的运动精确性。 所以在第三代 RT Cores增加了两个重要硬件单元:Opacity Micromap Engine与Displaced Micro-Meshes Engine引擎。Opacity Micromap Engine,主要是用于alpha通道的加速,能够将 alpha 测试几何体的光线追踪速度进步2倍。
在传统光栅渲染中,开发人员运用一些 Alpha 通道的素材来完成更高效的画面渲染,例如 Alpha 通道的叶子或火焰等复杂外形的物体。但在光线追踪时期,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次经过一块叶子,光线每击中一次叶子,都会调用一次着色器来肯定如何处置相交,这时就会做成严重的执行成本与时间等候成本。
而Opacity Micromap Engine用于直接解析具有非不透明度光线交集的不透明度状态 三角形。依据Alpha 通道的不透明,透明与未知等三个不同的块状态中止处置:透明则直接疏忽继续找下一个,不透明块则记载并告之命中,而未知的则交给着色器来肯定如何处置,这样GPU很大部分都不需求中止着色器的调试处置,能够完成更为高效的性能。 Displaced Micro-Meshes Engine
假如说Opacity Micromap Engine加速的是面处置,那么Displaced Micro-Meshes Engine就是几何曲面细节的加速器。如上图所示,在Ada Lovelace架构中,经过1个基底三角形+位移地图,就能够创建出一个高度细致的几何网格,所需求资源占用比二代RT Cores更低,效率也更高。
经过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需求需求1.7万个微网格、160万个微三角形,在Ada Lovelace架构中BVH创建速度可加快7.6倍,存储空间减少8.1倍。Displaced Micro-Meshes Engine起到了关键性的作用,其将一个几何物体依据不同细节分红密度不一的微网络处置,红色密度超高,细节处置越为复杂 。相应的低密度微网络区域则能够释放更多的资源与存储空间,这样Displaced Micro-Meshes Engine就能够辅佐BVH加速过程,减少构建时间和存储成本。 同时Ada Lovelace架构SM中新增了着色器执行重排序(Shader Execution Reordering,SER),这是由于光线追踪不再只需强光或者阴影渲染处置,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代 RT Cores与第四代 Tensor Cores有着更高的执行效率,那就得为他们来布置一位管家。而着色器执行重排序(SER)就是为了能够即时重新布置着色器负载来进步执行效率,为光线追踪提供2倍的加速,也能更好天时用 GPU 资源。不外目前仍未有实例,想完成这个功用,还得游戏与开发工具的支持才行。 第四代 Tensor Cores
Tensor Cores是特地为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中运用的中心计算功用。第四代 Tensor Cores 新增 FP8 引擎,具有高达 1.32 petaflops 的张量处置性能,超越上一代 的 5 倍。
技术解说:DLSS3 或者说第四代 Tensor Cores太硬核你不会知道是啥?提升意义在哪?但是Tensor Cores最经典的应用DLSS你肯定会知道,这一次Ada Lovelace架构支持NVIDIA最新的DLSS3技术。 之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,细致的表示为开启光线追踪技术后游戏帧数大幅度的降落,以至很难保障游戏流利的运转。于是DLSS运用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS 帧生成、DLSS 超分辨率(也称为 DLSS 2)和 NVIDIA Reflex。你能够了解为DLSS3是在DLSS2的基础上,新增了DLSS 帧生成技术;然后两技术中,DLSS 超分辨率只需求GeForce RTX显卡都能运用上,NVIDIA Reflex则是GeForce 900 系列以后的显卡都用运用上。
想完成DLSS 帧生成可不简单,这需求配合上Ada Lovelace架构的GeForce RTX 40系列显卡才行。DLSS 帧生成技术原理是:应用 AI 技术生成更多帧,以此提升性能。DLSS 会借助 GeForce RTX 40 系列 GPU 所搭载的全新光流加速器剖析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开端,NVIDIA显卡就曾经支持了光流加速器,而Ada Lovelace架构的光流加速器升级到了第二代,其提供了高达300 TeraOPS (TOPS) ,比安培架构的初代光流加速器(Optical Flow Acceleration,OFA)快 2 倍以上。为了完成DLSS帧生成,OFA表演了重要的角色,其配合上新的运转量剖析算法在DLSS3技术框架内完成精确和高性能的帧生成才干。
另外,由于DLSS 帧生成是在GPU上作为后处置执行的,那么即便在游戏遭到CPU性能限制的时分,我们同样能够从中取得更好的游戏性能提升。特别是那种物理计算密集型的游戏或大型场景游戏,DLSS2均能够让GeForce RTX 40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。 最后由于DLSS 3是树立在DLSS 2基础之上的,游戏开发者能够在已支持DLSS 2或NVIDIA Streamline的现有游戏中快速集成该功用,所以DLSS 3已在游戏生态得到普遍应用,目前已有超越35款游戏和应用行将支持该技术。 阅读小亮点:NVIDIA Reflex NVIDIA Reflex也是DLSS3其中的一环,它能够使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要完成端对端的最低延迟,你需求确保游戏、显现器以及鼠标三者都同时支持并开启了Reflex 技术。
当GeForce RTX 40 系列显卡和 NVIDIA Reflex搭配上后,直接抵达1440p分辨率360 FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时曾经透露将会还有4 款 1440p 分辨率的新型 G-SYNC 电竞显现器将要发布,包含采用mini-LED技术的AOC AG274QGM – AGON PRO Mini LED、MSI MEG 271Q Mini LED 和 ViewSonic XG272G-2K Mini LED三款显现器刷新率均为300Hz,而最猛的是ASUS ROG Swift 360 Hz PG27AQN ,刷新率直接来到了360Hz。 但唯逐一个问题就在于,部分显现器厂商以为此类产品受众人群较少,会降低此类显现器的产能,以至产品就曾经被内部PASS掉,所以1440p360Hz是很美好,但理想也是相当的骨感。 技术解说:双NVIDIA编码器(NVENC)
GeForce RTX 40 系列显卡还有一个全新的升级,那就是双编码器NVENC。第八代的NVENC双编码器不只支持H.264与H.265,还支持开放式视频编码格式 AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在鼎力推行此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包含剪映专业版、DaVinci Resolve、以及 Adobe Premiere Pro 较为盛行的 Voukoder 插件均支持,且均可经过编码预设运用双编码器,这样我们等候视频导出的时间缩短将近一半。
不单是视频制造软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保障画面最高质量的状况下,AV1 编码器可将效率进步 40%,同时显卡的占用也更低。包含OBS Studio逐一代软件中也会增加AV1格式的支持。另外我们还能经过 GeForce Experience 和 OBS Studio 录制高达 8K60 的内容,这样我们做游戏录制也会变得更为轻松。
包含我们之后测试时运用的游戏内录视频都是支持AV1格式,同时双编码器NVENC在资源占用和适配上做得越来越好。 |