锐龙|缓存容量破纪录!AMD 米兰-X将性能再提升66%( 二 )


我们来看看3D V-Cache缓存的分布情况 。 谈到AMD的Zen架构处理器 , 相信大家对CCD一定不会陌生 , 其为Core Chiplet Die的缩写 , 可以看作是多颗核心组成的处理器单元 。

图:Zen3架构下的CCD单元(米兰)
一般情况下CCD核心单元包含CCX(CPU Complex , 可看作是纯计算单元)及Infinity Fabric , 每个CCX整合了8个Zen内核 , 每个核心都有独立的L1与L2缓存 , L3缓存则为共享形式 。 因此 , 以Zen3架构EPYC 7003处理器为例 , 一组CCD核心单元就具备8核16线程 , 以及可共享的32MB的L3缓存 。 8套CCD核心单元组成具备64颗核心、128线程合计256MB的L3缓存 。
CCD核心与I/O之间采用Infinity Fabric总线连接 , 它在扩展性、延迟和能效方面都表现出色 , 具备512-bit总线位宽 。 相比上一代罗马 , EPYC 7003的每颗核心均可访问CCD单元中32MB的L3缓存 , 这在很多企业级应用中能够明显提升计算性能 。
对处理器而言 , L3缓存容量的大小极为重要 。 如果简单地将存储分层的话 , 可以看到站在性能制高点的是L1和L2缓存 , 但由于频率极高 , 受限于晶体管数量及良品率控制 , 所以容量不能做的很大 。 而再下一级就是L3缓存和内存 , 相比之下内存依然是“CPU之外”的存储 , 其位宽、频率及延迟等性能要远远逊于CPU缓存 , 所以这里就会出现一个超高速率的处理器+小容量缓存与大容量内存之间形成的性能“断层” 。
如何很好地弥补这一“断层”?需要L3缓存来实现 。 L3缓存依然位于CPU内部 , 因此性能强劲 , 且容量能够做得相对大一些 , 就像是高速度的“存储池” , L3缓存向上承接超高速的L1及L2 , 向下则与更大容量但速度较慢的内存进行数据交换 。 因此L3缓存是拓宽系统数据交换瓶颈的重要“交通枢纽” 。
多年来 , AMD也是潜心致力于扩大L3缓存容量 , 用以提升整体性能 。 随着制造工艺的不断进步 , 3D V-Cache得以实现 , AMD 米兰-X此次提升的就是CCD单元中L3缓存容量 , 从之前的32MB飙升至96MB , 组成了共计768MB的超大容量 。

另外值得关注的是 , AMD推出的这四款米兰-X处理器无论核心数量多少 , 均配备了768MB的L3缓存 , 因此可以用脱胎换骨来形容 。
米兰-X性能最高提升66%
如此规模庞大的L3缓存可以说是史无前例 , 那么它到底能带来多大的性能提升呢?
此次AMD也对米兰-X进行了全面测试 , 其中包括计算流体动力学(CFD)、有限元分析(FEA)、电子设计自动化(EDA)以及结构分析 , 这四大领域 。

EDA是Electronic design automation的缩写 , 指的是利用计算机辅助设计(CAD)软件 , 来完成超大规模集成电路芯片的功能设计、综合、验证、物理设计 , 包括布局、布线、版图、设计规则检查等流程的设计方式 。
在当今这个数字化时代 , EDA被誉为半导体设计、制造方面的基石 , 也是工业领域重要的组成部分 。 包括AMD、高通、三星等厂商在芯片设计方面也都离不开EDA 。 在各种复杂设计的模拟方面 , 性能强劲的服务器可以让工作效率实现大幅提升 , 并可直接缩短设计周期 。
在EDA测试中 , 拥有3D V-Cache的第三代AMD EPYC 7373X对比EPYC 73F3 , 结果显示能够为Synopsys VCS这样的EDA RTL模拟提供高达66%的性能提升 。

此外 , 在FEA、CFD等分析及仿真程序测试中 , 米兰-X也表现出了更强大的性能 , 并且能够帮助企业级用户在同样的时间内解决更多问题 。
AMD继续扩大朋友圈 , 软硬合作伙伴同发力
近年来 , EPYC的成功让AMD朋友圈逐渐丰富了起来 , 几乎所有的硬件厂商都已经成为了AMD的合作伙伴 , 也帮助其在企业级市场屡屡攻城略地 。