“AMD正式发布了新一代Instinct MI100计算卡”
来源:快速技术
昨天晚上,amd正式发布新一代instinct mi100计算卡,与hpc的高性能计算相比,首次使用了ai人工智能新设计的cdna架构,什么是面向游戏的rdna架构?
instinct mi100计算卡使用台湾积体电路制造7nm工艺制造,集成了120个计算单元、7680个流式传输解决方案,核心频率最高为1502mhz,为了加速hpc、ai运算,使用矩阵核心( matrix core
内置32gb HBM 2显卡内存、位宽4096-bit、频率1.2ghz、带宽1228.8gb/s秒,支持ecc。
该卡支持pcie 4.0 x16,包括3条infinity光纤互连总线、峰值带宽92gb/s、整卡热设计功耗300瓦、双8针辅助电源。
这张卡的特殊之处在于,上面设置了桥牌金手指。 可以通过桥牌将四张牌连接在一起。 此外,结合双向amd小龙解决方案,还可以让8张卡并行。
像以前的计算卡一样,甚至r9 fury x、vega 64/56这样的游戏卡,instinct mi110也将gpu芯片、hbm芯片打包在一起,但现在的hbm2一个容量达到了8gb。
cdna (上)、rdna ) )下)的结构图可以看出,两者的整体框架有些相似,但各种单元模块和布局有很大不同。
infinity结构互连总线、图形内存控制器、pcie 4.0控制器、多媒体引擎、着色器引擎、ace异步计算引擎等仍然存在。 当然,并不完全一样。 图形指令解析器、几何解决方案、光栅、显示引擎、基本体等图形渲染输出不再存在,而是添加了xgmi连接控制器用于多卡设备
作为amd gpu最基本的模块,计算单元( cu )也完全不同,现在被称为扩展计算单元) xcu,包括调度器、分支和新闻单元、12.8kb ecc标量单元、512kb ecc标量寄存器,
很明显,这一切都是为了计算而服务的,但用于图形的着色器、纹理相关单元自然消失,即使一些单元的名称相同,规格和作用也不同。
计算性能方面,fma64/fp64倍精度为11.5tflops (每秒1.15亿次),fma32/fp32单精度为23.1tflops )每秒2.31亿次),FP32矩阵单精度矩阵计算为46.1tflops )每秒4.61亿次)
这种卡相当于20年前的世界顶级超级计算机,但其体积和功耗不可同日而语。
关于nvidia安培框架的最新计算卡a100,amd也就数据提出了一些看法。 fp32的单精度性能领先18.5%,fp64的倍精度性能领先18.6%,ai和机器学习习惯更是领先两倍以上,功耗低了100w。
另一方面,相对于上一代mi50,新卡的fp64倍精度、fp32单精度性能均提高了74%,fp32基体性能提高了近2.5倍,ai负载性能更是实现了近7倍的飞跃。
当然,不仅纸面计算性能优异,软件开发也需要跟上。 特别是这种计算性的产品。 nvidia在这方面强大得多,生态更加牢固和丰富,amd rocm平台正在奋斗。
免责声明:晨报时代网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的小编将予以删除。
心灵鸡汤: