“RTX 30系列显卡能够不涨价甚至降价的关键”
来源:快速技术
在现在的显卡市场上,80%的nvidia企业受到玩家的喜爱,他们拥有近10多年来最好的显卡被憎恨。 另外,高端游戏卡价格高的企业、发热显卡至少5位数起。
rtx 30系列显卡发布后,玩家的不满似乎消失了。 与现在的图灵显卡相比,安培架构的rtx 3090/3080/3070显卡一下子变成了真正的香味。 虽然说是因为它们的性能增加了两倍,但是国内价格反而下降了。
Gorce RTX 3090 :代替RTX Titan,比titan rtx快50%,性能是rtx 2080 ti显卡的两倍,配备24gb GDR 6x显卡内存,售价11999元,9月229日。
Gorce RTX 3080 :代替RTX2080,性能比RTX2080快两倍,与10gb GDR 6x显卡内存搭配,国外699美元不变,国内从上一代的6499元降至5499元,9月17日,
geforce rtx 3070 :价格不到rtx 2080 ti的一半,但平均性能更高,比rtx 2070快60%,搭载8GB GDR 6显卡存储器,3899元于10月上市。
rtx 30系列显卡的售价和上市时间
rtx 30系列显卡性能的变化
rtx 30系列图形规格
从该规格表可以看出,与rtx 2080 ti显卡相比,rtx 3090的特征fp32性能从13.4t提高到35.7t,提高了两倍以上,仅ai的加速提高也同样明显。
与图灵显卡相比,安培gpu的一些变化之大令人惊讶,在过去十多年的显卡更新换代中,性能翻倍的情况很少见。 nvida是怎么做到的?
今天,我们来详细解读安培gpu的体系结构,看看nvidia创始人黄仁勋是否带来了史上最大的性能提升技术升级。
首先,从过程开始吧。 12纳米杀死7纳米后,8纳米如何更进一步?
对半导体芯片来说,重要的部分是工艺技术,先进的体系结构也必须通过工艺来实现,这是影响芯片能效、性能甚至价格的一大因素。
对nvidia来说,他们的volta螺栓、turing Turing的两代体系结构都是台湾积体电路制造12nm ffn工艺的改进版,如果算上16nm的pascal体系结构,实际上是过去三代
在ampere安培框架中,nvidia终于升级了流程。 只是,这次有两个意外,没有首先选择台湾积体电路制造。 其次不是7nm,而是三星定制的8nm工艺。 虽然看起来和7nm只差1nm,但实际上是2代的过程。
考虑到之前对nvidia工艺的态度,三星的8nm工艺而不是7nm工艺出乎意料,最重要的问题是nvidia能做得多好。
三星的8纳米工艺基于10纳米工艺进行了改进,至少有lpp和lpu两个版本,前者适合移动soc,后者适合高性能芯片,nvidia定制大致基于后者。
台湾积体电路制造的7nm工艺晶体管密度约为1亿/mm2,而8nm工艺约为6000万晶体管/mm2,但这是单一sram芯片的对象,实际上gpu芯片多且复杂,差距会缩小很多。
根据nvidia公布的消息,台湾积体电路制造7纳米工艺制造的安培a100核心为540亿晶体管,核心面积为826mm2,三星8纳米工艺制造的ga102核心为280亿晶体管,核心面积官方公布,
这样算下来,7纳米ga102核的晶体管密度为6560万晶体管/mm2,但三星8纳米的ga102核也只剩下4460万晶体管/mm2的差距,似乎可以接受。
虽然三星8纳米工艺的晶圆代工价格是秘密的,但无论从技术上还是商业战略上看,三星都会比台湾积体电路制造便宜很多,代工价格预计会相差30%以上,所以这也是rtx 30系列显卡不涨价和不降价的关键。
三星的8纳米工艺带来了多少性能和能效的提高? 首先,可以看到rtx 30系列显卡的频率上升,从rtx 20系列的1.5ghz+上升到1.7ghz+。 升级过程仍有性能提升。
但是,rtx 20系列的加速频率实际上可以达到1.9ghz或接近2ghz,预计rtx 30系列也将达到这个水平。
但是,能源效率仍在提高。 根据nvidia的公式,60fps的性能,图灵显卡的功耗约为240w,安培显卡为120w多。 计算得出,能源效率为1.9倍,提高90%,温度还低3度,噪音减少2分贝。
总结一下,在工艺方面大家都对安培gpu感到惊讶和失望,失望的是没有预期的7纳米工艺(无论是台湾积体电路制造还是三星),工艺依然升级到了8纳米。
虽然nvidia工艺并不激进,但性能、能效进步相当大。 安培显卡的各方面指标都大大胜过了现在的图灵卡,而且价格既不会上升也不会下降。 这也是不追求激进进程的利益。 无论如何,以前能以12nm获胜,但现在去8nm更稳妥了。
安培gpu体系结构详情: fp32单元翻倍的cuda核心发生了什么变化?
安培发表时,nvidia ceo黄仁勋表示这是gpu有史以来最大的性能飞跃,但年图灵gpu上市时,黄先生也用同样的话评价这是gpu有史以来最大的变革,其实也没有错。
图灵gpu体系结构有很多是第一次,第一次支持RTX核心、tensor核心和cuda核心,但前两个是重点。
安培gpu方面,RT酷睿、Tensor酷睿当然在不断加强,但最重要的一点是cuda体系结构的改善,性能翻倍的根本原因就在这里。 首先,让我们来看看这方面的变化。
ga102核心体系结构示意图
ga102核心共7组gpc单元,每组12组sm单元,共84组,rtx 30系列显卡根据规格启用的sm单元总数不同,rtx 3090为82组,rtx 3080为68组,
在此前的ga100核心中,各组sm由64个int32单元、64个fp32单元和32个fp64单元构成,但在ga102核心中,fp64单元大幅减少,RT核心增加,tensor core增加。
ga102核心的sm单元
在过去的图灵gpu路线上走,安培gpu的sm单元没有增加多少,但实际上fp32的性能是原来的两倍。 如果算上频率,rtx 3080的理论性能将接近rtx 2080的3倍。 这个怎么能做到呢?
答案是将cuda核心的fp32增加两倍,但增加两倍的方法有点特殊。 每个sm单元有4个分区,每个分区除了第三代tensor core核心外,还包括16个fp32单元和16个fp32、16个in32单元,后者可以执行fp32或int32运算
16个fp32单元可以在每个周期中执行16个fp32运算,混合的单元可以执行32个fp32或16个fp32+16个int32。
由此,各sm单元能够执行4x(16FP32+16FP32 ) =128个fp32运算或4x ) 16fp 32 + 16英寸32 ) =64个fp32+64个int32运算。
如果只计算fp32浮点,浮点会加倍。 图灵和ga100每个周期为64个fp32浮点,因此现在可以进行128个fp32运算。
提高fp32的性能对游戏和运算都有很大的帮助,但需要配套提高。 ga102的l1容量提高了33%,l1带宽从116gb/s秒提高到219gb/s秒,共享内存的性能也从每个周期的64b提高到128b。
安培gpu体系结构详情: rtx光跟踪升级从可用到易于使用
上一代图灵gpu架构最大的亮点是引入了rtx实时光跟踪技术,开创了3d游戏的光跟踪时代,意义重大。
但是,先行者的代价也不小,图灵gpu的轻击效果在实际游戏中并不明显,对性能产生了很大的影响。 只能说初代rtx灯光处理了有无问题。 现在的安培gpu才是rtx光效更容易使用。
图灵gpu方面,nvidia采用的第一代RT酷睿能够提供10giga rays/s的性能,而安培gpu方面,RT酷睿升级到了第二代,据说性能翻了一番。 只有这样,才能大幅提高光追性能。
图灵gpu光跟踪体系结构
安培gpu光追
但是,光有这些还不够。 安培gpu中,参与光跟踪应用加速的不仅仅是sm单元、rt单元。 第三代tensor core单元也越来越多,但安培体系结构中sm、rt、tensor单元的性能大幅提高。 以rtx 3080为例,sm单元的性能从11t提高到30t,rt的性能为
由此带来的结果之一是光追性能的大幅提高。 不支持硬件加速的pascal gpu的渲染每帧需要51ms,但图灵可以提高到19ms。 加上dlss等可以缩短到13ms,大大低于60fps所需的16.6ms的帧时间。
安培gpu的时间还很快,单纯的硬件加速可以从13ms缩短到7.5ms,第二代技术的正成果只有6.7ms。
无论如何,在rt灯光性能方面,不说没有硬件加速的pascal图形卡,对于从rtx 2080到rtx 3080的几个变更,软件渲染的性能为40%,硬件渲染的性能为40%
目前,实际评价尚未解禁,在具体游戏中的提高还不好说,但扣除官方测试的理想状态,只将性能提高50%,应该没有压力。 这足以让现在的游戏更实用,并不是只要装上rtx性能就会大幅下降的情况。
预计以前以1080p 30fps运行的灯光跟踪游戏今年可以在1080p 60或2k 144上顺利运行,可用性至少提高了一个等级,可以统一使用。
安培gpu架构详情:第三代tensor酷睿,可玩8k游戏
tensor core是部署在螺栓gpu上的新核心,目前也是sm单元的三个子核心之一,但在数据中心gpu中,ai加速功能很重要,所以a100核心的tensor core占有相当大的面积,功能和性能都
在ga102核心中,tensor core也是第三代体系结构,但与ga100核心不同的是,每个sm单元有4个tensor core,但性能减半。
但是在游戏gpu中,tensor core的意义并不大。 在nvidia官方的应用程序中,dlss发挥着ai加速的作用。 可以进一步提高游戏的性能。 虽然这次还是dlss 2.0,但是配合rtx 3090显卡的强大性能,8k dlss游戏将成为可能。
8k游戏的分辨率是4k的4倍,是1080p的16倍,光是高分辨率带来的挑战就吃不下现在的高端硬件。 但是在dlss的加持下,rtx 3090在很多主流游戏中实现了60fps以上的性能,最高可以超过100fps,可玩性已经不是问题了。
这就是tensor core对游戏的重要作用,但必须说8k还很远,性能跟不上硬件设备,现在4k玩得很好了。
安培gpu体系结构详情: gddr6x显卡内存带宽升级可与hbm2媲美
除了gpu主机外,图形存储器技术一代也进行了升级,上一代图灵gpu首次推出gddr6图形存储器。 这次nvidia又迅速将gddr6x显卡存储器商业化,其中rtx 3090不仅频率达到了19.5gbps,还达到了24gb的超大容量。
gddr6x基于当前的gddr6进行升级,基本体系结构和技术没有变化。 要点是增加pam4信令机制,在解决方案和存储器之间,采用4级电压,在各周期中对2位进行编码并传输。
关于pam4机制,据理解,闪存从slc升级到mlc将使每个周期传输的数据量增加一倍。 由于这实现了超高速率的等效频率,因此在启动时采用21gbps,在nvidia中目前采用的频率稍低,rtx 3090为19.2gbps,rtx 3080为18gbps。
使用gddr6x图形内存,等效带宽提高50%时,能效也得到提高,每位功耗降低了15%。
但是,现在gdd6x可以实现hbm2显卡内存的1tb/s带宽,但不需要后者那么多复杂的过程和价格,也不需要考虑hbm2。
安培gpu体系结构详细信息:视频解码、接口、pcie 4.0
安培gpu还有其他技术升级。 让我简单地说明一下:
av1视频解码升级支持8k
8k是nvidia此次升级的重要之一,游戏性能可以应对8k,同时也具备了接口和解码的能力。
首先,安培gpu更新后的nvdec首次实现了av1的8k 60p解码支持。 虽然该编码比h264能节省大量带宽,但在cpu软解码的情况下,9900k这样的cpu占有率也达到了85%,安培gpu的nvdec硬解码占有率只有4%,帧率也从28fps达到了60fps,
第一个hdmi 2.1接口,8k输出
关于输出接口,除了3个dp1.4a接口外,此次还首次发售了hdmi 2.1接口,支持4画面输出。 48gbps的新接口可支持8k 60hz hdr,适合与新一代显示器组合。
支持pcie 4.0,无需担心性能下降
rtx 30系列显卡还支持pcie 4.0。 这也是大势所趋,但pcie 4.0的问题是只有amd的x570平台完全支持,而英特尔的台式机平台还没有支持。 有点不自然。
玩家可以考虑组合amd的锐龙平台,但没有必要为了pcie 4.0而强行组合。 nvidia表示,将pcie 4.0放回pcie 3.0对性能的影响仅限于百分之几,大于cpu的影响。 言外之意是在酷睿i9-9900 k或酷睿i9-10900 k上继续。
游戏工具升级: reflex、广播、Omni虚拟机
近年来,nvidia在显卡市场的份额不断提高,不仅显卡的性能、功耗,软件和体验上也带有很多墨水。 gfe中整合了ansel、highlights等众多受游戏玩家欢迎的工具。
在安培显卡方面,nvidia这次带来了降低延迟的nvidia reflex、ai加速的直播nvidia broadcast、nvidia omniverse machinima三个新功能。
nvidia reflex :延迟再减少50%
游戏玩家,特别是网络游戏对延迟很敏感,这个延迟不仅与网络、显卡的性能有关,还与键盘、鼠标的输入延迟等系统有关。
nvidia reflex是一种可以降低延迟的工具,在《apex英雄》、《使命召唤:战地》、《堡垒之夜》、《valorant》等热门电竞游戏中,可以降低50%的延迟。
此外,nvidia reflex将来还有一个“reflex延迟”( reflex latency analyzer ),用于监视鼠标单击并测量屏幕上相应像素的变化所需的时间。 例如,焊枪的闪光可以与超过7000美元的专用高速照相机和设备媲美。
NVIDIA广播:游戏主播的好助手
现在,游戏与现场直播密切相关,NVIDIA广播软件可以使游戏主播更轻松省力。 nvidia broadcast软件通过显卡的ai加速实现了降噪、虚拟背景、自动帧显示等多种功能,增强了麦克风和网络摄像头的效果。
nvidia omniverse machinima :自己拍大片
omniverse machinima是一个引擎电影工具,可以利用游戏中的资源自己拍摄电影,准确模拟光线、实物、材料和人工智能。 此外,它还适用于3ds、max、maya、photoshop、epic unreal、rhino等大多数第三方设计工具,最终将被采用。这既是游戏开发者制作游戏cg的利器,也是游戏的
one more thing:rtx io可能是下一个规则变更者
虽然nvidia的安培gpu体系结构和技术介绍差不多,但最后还是留下了一项新的技术rtx io,让ssd硬盘几乎可以实时加载游戏,乍一看并不引人注目,但可能会改变游戏体验。
SD硬盘现在基本普及,其超高速的性能也给游戏玩家带来了很多利益,游戏加载速度大幅提高,但这还远远没有达到极限。 随着游戏越来越大,数据读取越来越频繁,ssd的性能无法得到完美发挥。
这个问题的根本原因在于以前流传的io设计。 压缩的游戏数据需要经过硬盘、主盘、pcie、cpu、gpu及其各自的内存系统,过程复杂,可能存在瓶颈。
有了rtx io,游戏数据就不需要通过cpu和内存,直接导入gpu,同时支持无损压缩,cpu利用率降低20倍,吞吐量提高100倍。
最终收益是游戏加载速度大幅提高。 如上图所示,硬盘的38秒加载时间自不必说,pcie 4.0硬盘的加速也需要5秒,但rtx io技术只需要1.5秒。
一秒多的时间在感觉上几乎是实时加载的,一眨眼就完成了切换,游戏中的地图和场景切换极快。
nvidia的rtx io技术其实和新一代主机的技术一样,但是支持越来越多的压缩方式,解压也很有效率。 它还支持Microsoft的directstorage,计划在2021年登录到windows 10平台,以便在主机和pc上都可以使用该技术。
免责声明:晨报时代网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的小编将予以删除。