当前位置：主页 > 新闻快讯 > “RTX 30系列显卡能够不涨价甚至降价的关键”

“RTX 30系列显卡能够不涨价甚至降价的关键”

更新时间：2021-05-15 09:21:01 浏览：

来源:快速技术

在现在的显卡市场上，80%的nvidia企业受到玩家的喜爱，他们拥有近10多年来最好的显卡被憎恨。另外，高端游戏卡价格高的企业、发热显卡至少5位数起。

rtx 30系列显卡发布后，玩家的不满似乎消失了。与现在的图灵显卡相比，安培架构的rtx 3090/3080/3070显卡一下子变成了真正的香味。虽然说是因为它们的性能增加了两倍，但是国内价格反而下降了。

Gorce RTX 3090 :代替RTX Titan，比titan rtx快50%，性能是rtx 2080 ti显卡的两倍，配备24gb GDR 6x显卡内存，售价11999元，9月229日。

Gorce RTX 3080 :代替RTX2080，性能比RTX2080快两倍，与10gb GDR 6x显卡内存搭配，国外699美元不变，国内从上一代的6499元降至5499元，9月17日，

geforce rtx 3070 :价格不到rtx 2080 ti的一半，但平均性能更高，比rtx 2070快60%，搭载8GB GDR 6显卡存储器，3899元于10月上市。

rtx 30系列显卡的售价和上市时间

rtx 30系列显卡性能的变化

rtx 30系列图形规格

从该规格表可以看出，与rtx 2080 ti显卡相比，rtx 3090的特征fp32性能从13.4t提高到35.7t，提高了两倍以上，仅ai的加速提高也同样明显。

与图灵显卡相比，安培gpu的一些变化之大令人惊讶，在过去十多年的显卡更新换代中，性能翻倍的情况很少见。 nvida是怎么做到的？

今天，我们来详细解读安培gpu的体系结构，看看nvidia创始人黄仁勋是否带来了史上最大的性能提升技术升级。

首先，从过程开始吧。 12纳米杀死7纳米后，8纳米如何更进一步？

对半导体芯片来说，重要的部分是工艺技术，先进的体系结构也必须通过工艺来实现，这是影响芯片能效、性能甚至价格的一大因素。

对nvidia来说，他们的volta螺栓、turing Turing的两代体系结构都是台湾积体电路制造12nm ffn工艺的改进版，如果算上16nm的pascal体系结构，实际上是过去三代

在ampere安培框架中，nvidia终于升级了流程。只是，这次有两个意外，没有首先选择台湾积体电路制造。其次不是7nm，而是三星定制的8nm工艺。虽然看起来和7nm只差1nm，但实际上是2代的过程。

考虑到之前对nvidia工艺的态度，三星的8nm工艺而不是7nm工艺出乎意料，最重要的问题是nvidia能做得多好。

三星的8纳米工艺基于10纳米工艺进行了改进，至少有lpp和lpu两个版本，前者适合移动soc，后者适合高性能芯片，nvidia定制大致基于后者。

台湾积体电路制造的7nm工艺晶体管密度约为1亿/mm2，而8nm工艺约为6000万晶体管/mm2，但这是单一sram芯片的对象，实际上gpu芯片多且复杂，差距会缩小很多。

根据nvidia公布的消息，台湾积体电路制造7纳米工艺制造的安培a100核心为540亿晶体管，核心面积为826mm2，三星8纳米工艺制造的ga102核心为280亿晶体管，核心面积官方公布，

这样算下来，7纳米ga102核的晶体管密度为6560万晶体管/mm2，但三星8纳米的ga102核也只剩下4460万晶体管/mm2的差距，似乎可以接受。

虽然三星8纳米工艺的晶圆代工价格是秘密的，但无论从技术上还是商业战略上看，三星都会比台湾积体电路制造便宜很多，代工价格预计会相差30%以上，所以这也是rtx 30系列显卡不涨价和不降价的关键。

三星的8纳米工艺带来了多少性能和能效的提高？首先，可以看到rtx 30系列显卡的频率上升，从rtx 20系列的1.5ghz+上升到1.7ghz+。升级过程仍有性能提升。

但是，rtx 20系列的加速频率实际上可以达到1.9ghz或接近2ghz，预计rtx 30系列也将达到这个水平。

但是，能源效率仍在提高。根据nvidia的公式，60fps的性能，图灵显卡的功耗约为240w，安培显卡为120w多。计算得出，能源效率为1.9倍，提高90%，温度还低3度，噪音减少2分贝。

总结一下，在工艺方面大家都对安培gpu感到惊讶和失望，失望的是没有预期的7纳米工艺(无论是台湾积体电路制造还是三星)，工艺依然升级到了8纳米。

虽然nvidia工艺并不激进，但性能、能效进步相当大。安培显卡的各方面指标都大大胜过了现在的图灵卡，而且价格既不会上升也不会下降。这也是不追求激进进程的利益。无论如何，以前能以12nm获胜，但现在去8nm更稳妥了。

安培gpu体系结构详情: fp32单元翻倍的cuda核心发生了什么变化？

安培发表时，nvidia ceo黄仁勋表示这是gpu有史以来最大的性能飞跃，但年图灵gpu上市时，黄先生也用同样的话评价这是gpu有史以来最大的变革，其实也没有错。

图灵gpu体系结构有很多是第一次，第一次支持RTX核心、tensor核心和cuda核心，但前两个是重点。

安培gpu方面，RT酷睿、Tensor酷睿当然在不断加强，但最重要的一点是cuda体系结构的改善，性能翻倍的根本原因就在这里。首先，让我们来看看这方面的变化。

ga102核心体系结构示意图

ga102核心共7组gpc单元，每组12组sm单元，共84组，rtx 30系列显卡根据规格启用的sm单元总数不同，rtx 3090为82组，rtx 3080为68组，

在此前的ga100核心中，各组sm由64个int32单元、64个fp32单元和32个fp64单元构成，但在ga102核心中，fp64单元大幅减少，RT核心增加，tensor core增加。

ga102核心的sm单元

在过去的图灵gpu路线上走，安培gpu的sm单元没有增加多少，但实际上fp32的性能是原来的两倍。如果算上频率，rtx 3080的理论性能将接近rtx 2080的3倍。这个怎么能做到呢？

答案是将cuda核心的fp32增加两倍，但增加两倍的方法有点特殊。每个sm单元有4个分区，每个分区除了第三代tensor core核心外，还包括16个fp32单元和16个fp32、16个in32单元，后者可以执行fp32或int32运算

16个fp32单元可以在每个周期中执行16个fp32运算，混合的单元可以执行32个fp32或16个fp32+16个int32。

由此，各sm单元能够执行4x(16FP32+16FP32 ) =128个fp32运算或4x ) 16fp 32 + 16英寸32 ) =64个fp32+64个int32运算。

如果只计算fp32浮点，浮点会加倍。图灵和ga100每个周期为64个fp32浮点，因此现在可以进行128个fp32运算。

提高fp32的性能对游戏和运算都有很大的帮助，但需要配套提高。 ga102的l1容量提高了33%，l1带宽从116gb/s秒提高到219gb/s秒，共享内存的性能也从每个周期的64b提高到128b。

安培gpu体系结构详情: rtx光跟踪升级从可用到易于使用

上一代图灵gpu架构最大的亮点是引入了rtx实时光跟踪技术，开创了3d游戏的光跟踪时代，意义重大。

但是，先行者的代价也不小，图灵gpu的轻击效果在实际游戏中并不明显，对性能产生了很大的影响。只能说初代rtx灯光处理了有无问题。现在的安培gpu才是rtx光效更容易使用。

图灵gpu方面，nvidia采用的第一代RT酷睿能够提供10giga rays/s的性能，而安培gpu方面，RT酷睿升级到了第二代，据说性能翻了一番。只有这样，才能大幅提高光追性能。

图灵gpu光跟踪体系结构

安培gpu光追

但是，光有这些还不够。安培gpu中，参与光跟踪应用加速的不仅仅是sm单元、rt单元。第三代tensor core单元也越来越多，但安培体系结构中sm、rt、tensor单元的性能大幅提高。以rtx 3080为例，sm单元的性能从11t提高到30t，rt的性能为

“RTX 30系列显卡能够不涨价甚至降价的关键”

由此带来的结果之一是光追性能的大幅提高。不支持硬件加速的pascal gpu的渲染每帧需要51ms，但图灵可以提高到19ms。加上dlss等可以缩短到13ms，大大低于60fps所需的16.6ms的帧时间。

安培gpu的时间还很快，单纯的硬件加速可以从13ms缩短到7.5ms，第二代技术的正成果只有6.7ms。

无论如何，在rt灯光性能方面，不说没有硬件加速的pascal图形卡，对于从rtx 2080到rtx 3080的几个变更，软件渲染的性能为40%，硬件渲染的性能为40%

目前，实际评价尚未解禁，在具体游戏中的提高还不好说，但扣除官方测试的理想状态，只将性能提高50%，应该没有压力。这足以让现在的游戏更实用，并不是只要装上rtx性能就会大幅下降的情况。

预计以前以1080p 30fps运行的灯光跟踪游戏今年可以在1080p 60或2k 144上顺利运行，可用性至少提高了一个等级，可以统一使用。

安培gpu架构详情:第三代tensor酷睿，可玩8k游戏

tensor core是部署在螺栓gpu上的新核心，目前也是sm单元的三个子核心之一，但在数据中心gpu中，ai加速功能很重要，所以a100核心的tensor core占有相当大的面积，功能和性能都

在ga102核心中，tensor core也是第三代体系结构，但与ga100核心不同的是，每个sm单元有4个tensor core，但性能减半。

但是在游戏gpu中，tensor core的意义并不大。在nvidia官方的应用程序中，dlss发挥着ai加速的作用。可以进一步提高游戏的性能。虽然这次还是dlss 2.0，但是配合rtx 3090显卡的强大性能，8k dlss游戏将成为可能。

8k游戏的分辨率是4k的4倍，是1080p的16倍，光是高分辨率带来的挑战就吃不下现在的高端硬件。但是在dlss的加持下，rtx 3090在很多主流游戏中实现了60fps以上的性能，最高可以超过100fps，可玩性已经不是问题了。

这就是tensor core对游戏的重要作用，但必须说8k还很远，性能跟不上硬件设备，现在4k玩得很好了。

安培gpu体系结构详情: gddr6x显卡内存带宽升级可与hbm2媲美

除了gpu主机外，图形存储器技术一代也进行了升级，上一代图灵gpu首次推出gddr6图形存储器。这次nvidia又迅速将gddr6x显卡存储器商业化，其中rtx 3090不仅频率达到了19.5gbps，还达到了24gb的超大容量。

gddr6x基于当前的gddr6进行升级，基本体系结构和技术没有变化。要点是增加pam4信令机制，在解决方案和存储器之间，采用4级电压，在各周期中对2位进行编码并传输。

关于pam4机制，据理解，闪存从slc升级到mlc将使每个周期传输的数据量增加一倍。由于这实现了超高速率的等效频率，因此在启动时采用21gbps，在nvidia中目前采用的频率稍低，rtx 3090为19.2gbps，rtx 3080为18gbps。

使用gddr6x图形内存，等效带宽提高50%时，能效也得到提高，每位功耗降低了15%。

但是，现在gdd6x可以实现hbm2显卡内存的1tb/s带宽，但不需要后者那么多复杂的过程和价格，也不需要考虑hbm2。

安培gpu体系结构详细信息:视频解码、接口、pcie 4.0

安培gpu还有其他技术升级。让我简单地说明一下:

av1视频解码升级支持8k

8k是nvidia此次升级的重要之一，游戏性能可以应对8k，同时也具备了接口和解码的能力。

首先，安培gpu更新后的nvdec首次实现了av1的8k 60p解码支持。虽然该编码比h264能节省大量带宽，但在cpu软解码的情况下，9900k这样的cpu占有率也达到了85%，安培gpu的nvdec硬解码占有率只有4%，帧率也从28fps达到了60fps，

第一个hdmi 2.1接口，8k输出

关于输出接口，除了3个dp1.4a接口外，此次还首次发售了hdmi 2.1接口，支持4画面输出。 48gbps的新接口可支持8k 60hz hdr，适合与新一代显示器组合。

支持pcie 4.0，无需担心性能下降

rtx 30系列显卡还支持pcie 4.0。这也是大势所趋，但pcie 4.0的问题是只有amd的x570平台完全支持，而英特尔的台式机平台还没有支持。有点不自然。

玩家可以考虑组合amd的锐龙平台，但没有必要为了pcie 4.0而强行组合。 nvidia表示，将pcie 4.0放回pcie 3.0对性能的影响仅限于百分之几，大于cpu的影响。言外之意是在酷睿i9-9900 k或酷睿i9-10900 k上继续。

游戏工具升级: reflex、广播、Omni虚拟机

近年来，nvidia在显卡市场的份额不断提高，不仅显卡的性能、功耗，软件和体验上也带有很多墨水。 gfe中整合了ansel、highlights等众多受游戏玩家欢迎的工具。

在安培显卡方面，nvidia这次带来了降低延迟的nvidia reflex、ai加速的直播nvidia broadcast、nvidia omniverse machinima三个新功能。

nvidia reflex :延迟再减少50%

游戏玩家，特别是网络游戏对延迟很敏感，这个延迟不仅与网络、显卡的性能有关，还与键盘、鼠标的输入延迟等系统有关。

nvidia reflex是一种可以降低延迟的工具，在《apex英雄》、《使命召唤:战地》、《堡垒之夜》、《valorant》等热门电竞游戏中，可以降低50%的延迟。

此外，nvidia reflex将来还有一个“reflex延迟”( reflex latency analyzer )，用于监视鼠标单击并测量屏幕上相应像素的变化所需的时间。例如，焊枪的闪光可以与超过7000美元的专用高速照相机和设备媲美。

NVIDIA广播:游戏主播的好助手

现在，游戏与现场直播密切相关，NVIDIA广播软件可以使游戏主播更轻松省力。 nvidia broadcast软件通过显卡的ai加速实现了降噪、虚拟背景、自动帧显示等多种功能，增强了麦克风和网络摄像头的效果。

nvidia omniverse machinima :自己拍大片

omniverse machinima是一个引擎电影工具，可以利用游戏中的资源自己拍摄电影，准确模拟光线、实物、材料和人工智能。此外，它还适用于3ds、max、maya、photoshop、epic unreal、rhino等大多数第三方设计工具，最终将被采用。这既是游戏开发者制作游戏cg的利器，也是游戏的

“RTX 30系列显卡能够不涨价甚至降价的关键”

one more thing:rtx io可能是下一个规则变更者

虽然nvidia的安培gpu体系结构和技术介绍差不多，但最后还是留下了一项新的技术rtx io，让ssd硬盘几乎可以实时加载游戏，乍一看并不引人注目，但可能会改变游戏体验。

SD硬盘现在基本普及，其超高速的性能也给游戏玩家带来了很多利益，游戏加载速度大幅提高，但这还远远没有达到极限。随着游戏越来越大，数据读取越来越频繁，ssd的性能无法得到完美发挥。

这个问题的根本原因在于以前流传的io设计。压缩的游戏数据需要经过硬盘、主盘、pcie、cpu、gpu及其各自的内存系统，过程复杂，可能存在瓶颈。

有了rtx io，游戏数据就不需要通过cpu和内存，直接导入gpu，同时支持无损压缩，cpu利用率降低20倍，吞吐量提高100倍。

最终收益是游戏加载速度大幅提高。如上图所示，硬盘的38秒加载时间自不必说，pcie 4.0硬盘的加速也需要5秒，但rtx io技术只需要1.5秒。

一秒多的时间在感觉上几乎是实时加载的，一眨眼就完成了切换，游戏中的地图和场景切换极快。

nvidia的rtx io技术其实和新一代主机的技术一样，但是支持越来越多的压缩方式，解压也很有效率。它还支持Microsoft的directstorage，计划在2021年登录到windows 10平台，以便在主机和pc上都可以使用该技术。

本文：《“RTX 30系列显卡能够不涨价甚至降价的关键”》

免责声明：晨报时代网免费收录各个行业的优秀中文网站，提供网站分类目录检索与关键字搜索等服务，本篇文章是在网络上转载的，本站不为其真实性负责，只为传播网络信息为目的，非商业用途，如有异议请及时联系btr2031@163.com，本站的小编将予以删除。

上一篇：“苹果今天发布了iOS 14和iPadOS 14第八个开发者测试版”

下一篇：“华硕ZenFone 7和ZenFone 7 Pro将拥有单独的芯片组”

“RTX 30系列显卡能够不涨价甚至降价的关键”

相关推荐

热门收录

浏览最多的新闻