AMD|强大无须多言——第四代AMD EPYC处理器先进技术指南( 二 )



▲AMD详细解读了EPYC 9004产品命名情况

▲AMD将EPYC 9004产品分为了三类:追求核心密度的产品、追求平衡和优化的性能的产品以及追求核心性能的产品 。
AMD本次发布了18款EPYC 9004系列处理器 , 分为3个大类 , 分别是追求核心密度的产品、追求平衡和优化的性能的产品以及追求核心性能的产品 , 具体规格见下表 。


▲EPYC 9004、EPYC 7003、英特尔第12代酷睿、锐龙7000以及英特尔第11代酷睿处理器(从左到右)的外观对比 , 可以看到EPYC 9004大了不少 。
计算和扩展的领先地位:EPYC 9004技术架构一览
毫不夸张地说 , EPYC 9004是目前市面上最先进的企业级产品之一 。 它在CPU架构、Chiplet应用以及互联方式上 , 几乎都是当前技术条件下所能达到的极致 。 这一次 , AMD在超大规模的企业级产品研发上进入了一个新的层次 , 短时间内 , 能超越它的只有AMD自己的下一代产品 。
设计目标:拥有扩展和计算性能的优势地位

▲AMD EPYC 9004的设计理念
按照惯例 , 我们先来看看EPYC 9004的设计理念和实现情况 。 AMD EPYC 9004的设计理念就是继续保持计算性能和扩展能力的优势地位 。 AMD分四个方面进行了阐述:首先是拥有最先进的单核心性能和单插槽性能 , 这依靠最新的Zen 4架构和5nm工艺实现;其次是配备超大的内存带宽和容量 , 这依靠12通道的DDR5内存来实现;第三是采用全新的下一代IO接口 , 这包括最大160通道的PCIe 5.0控制器以及可以利用CXL协议扩展的内存寻址功能等;第四则是加密计算方面的新进展 , 主要通过CXL以及2倍的SEV-SNP功能来实现 。

▲EPYC 9004和上代产品的性能比较情况
根据AMD官方数据显示 , 和EPYC 7003系列的顶级型号EPYC 7763相比 , EPYC 9004系列中的顶级型号EPYC 9654能够在云端、HPC和企业级性能方面分别领先107%、123%以及94% 。 AMD宣称第四代EPYC处理器是全世界最好的数据中心处理器 , 拥有最快的数据中心性能、领先的能源效率、优秀的TCO表现、安全的加密计算能力以及丰富的生态系统 。

▲AMD EPYC 9004的宏观布局
为了达到这些设计要求 , EPYC 9004在结构上依旧采用了Chiplet设计 , 布局在中间的是全新设计的IO芯片 , 周围的CCD单元数量增加到12个 。 每个CCD中依旧包含了8个CPU核心和相应的缓存 , 以及32MB L3缓存 。 EPYC 9004核心数量大增的原因是CCD数量从上代产品的最多8个增加到了最多12个 , 这使得它最多能提供96核心192线程 。
Zen 4架构:IPC提升14%
AMD在企业级产品和消费级产品上采用了同样的核心微架构:EPYC 9004和桌面锐龙7000系列都是最新的Zen 4架构 。 有关Zen 4架构 , 本刊在之前锐龙7000首发文章中曾有过介绍 , 本文再简单回顾一下 。

▲Zen 4微架构及改进一览
AMD Zen 4架构是基于Zen 3架构改进而来 , 在架构设计上 , AMD希望实现更高的性能、更低的延迟和更好的能效比 。 其中性能的提升来自频率和IPC的提升;更低的延迟主要是提升了缓存的性能并且降低了整个架构的平均延迟;能效比方面则通过新设计、新工艺以及将移动端的一些技术移植在桌面端 , 降低了整个CPU的动态功耗 。

▲Zen 4架构相比Zen 3架构的重要提升
具体来看 , Zen 4架构在分支预测、Op缓存、指令排序相关窗口、整数或浮点寄存器、每核心更深的缓冲区、后端读取和加载等方面进行了优化 。 特别的变化是另外加入对AVX-512指令集的支持 , 以及重新调整的每核心1MB、8-way L2缓存 。
前端方面 , 分支预测部分有大幅加强 。 AMD使用了一个更强有力的分支预测单元 , 每周期可以执行2次分支预测 。 此外 , L1分支目标缓冲区的容量提升了50% , 达到1.5K条目 , L2分支目标缓冲区则达到7K 。 Zen 4还拥有更大的Op缓存、更大的指令回写队列 , 它们在很大程度上提升了处理器的前端性能 。