AMD|强大无须多言——第四代AMD EPYC处理器先进技术指南( 六 )


CXL 1.1+:提供超大规模的内存寻址空间
在互联技术特性上 , EPYC 9004对CLX 1.1+的支持是一个亮点 。 本刊之前介绍过有关CXL的技术内容 , CXL的全称是Compute eXpress Link , 它是一个开放的行业标准 , 主要用于在CPU和加速单元(GPU、DPU)或者一些IO设备之间提供高速缓存一致性互联 , 同时允许CPU在连接设备的相同内存区域上工作 , 从而提高性能和电源效率 , 并降低软件复杂性 , 减少数据移动次数 。 该规范以PCIe 5.0作为技术基础 , 最新修订版本的CXL 3.0则以PCIe 6.0作为技术基础 。
CXL规范的推出速度非常快 , 在CXL 1.0技术还未准备好之前 , CXL 2.0技术就已经到来 , 新规范要求在总线的SerDes级别提供内置支持 , 从而实现和远程内存组的低延迟连接 。 因此 , AMD不得不在新处理器的设计后期重新设计了CXL部分功能 , 还融入了包括持久内存和RAS报告等功能 , 但是其余部分则不能全部支持 , 因此AMD称之为CXL 1.1+ 。 目前AMD的CXL总线基于PCIe 5.0规范 , 和PCIe 5.0共用物理接口 。

▲ AMD的CXL 1.1+只支持第三类 , 也就是内存扩展 。
CXL支持三类设备 , 第一种常用于网卡这类高速缓存设备 , 第二种常见于GPU、AI等应用的内存加速器 , 第三种是内存扩展控制器 , 通常作为内存缓冲器 , 常用作内存带宽或是容量的扩展 。 EPYC 9004目前只支持第三种方案 , 允许用户将远程内存作为本地内存进行寻址 , 并且允许将多个CLX Type-C设备聚合成一个交错的NUMA节点 , 还支持“headless NUMA”节点 。 其他功能包括能够优化本地内存和CXL内存之间延迟差异的QoS机制 , 支持AMD的SEV-SNP密钥扩展和AES-256-XTS等功能 。
AMD目前最多允许将64个PCIe 5.0通道分配给CXL 1.1+ , 单个CXL 1.1+允许最多16个通道 , 因此单个CXL 1.1总线带宽为双向128GB/s 。 如果启用全部64个通道的话 , 带宽会高达双向512GB/s , 这已经高出了12通道DDR5内存的460GB/s了 。 考虑到EPYC 9004高达96个CPU核心对内存带宽的需求 , 这正是AMD支持CXL 1.1+的意义所在 。
性能预览:轻松抛离竞争对手
在架构介绍部分 , AMD提及了不少性能方面的信息 , 不过最终还得看综合性能情况 。 AMD选择了英特尔第三代至强可扩展处理器 , 也就是Ice Lake-X架构的产品进行对比 。

▲ EPYC 9004在云端方面的性能大幅度领先

▲AMD宣称EPYC 9004在多项性能中领先
首先来看单核心性能 。 AMD使用了16、32、40/48核心的处理器进行对比 。 EPYC 9004系列的不同型号处理器在整数、浮点性能方面超越英特尔产品最多可达55%、96% 。 虚拟化性能方面 , EPYC 7003的表现就足以抗衡英特尔产品 , EPYC 9004的性能更是英特尔产品的2.8倍之多 。 在FSI模拟、3D渲染和商务(MySQL业务查询)方面 , EPYC 9654的性能分别是英特尔至强铂金8380的大约2.1倍、2.4倍和2.7倍 。 HPC性能方面就更不用多说了 , 2P配置的EPYC 9654在天气预报、计算流体和有限元分析方面分别是2P配置的英特尔至强铂金8380的大约2.5倍、2.5倍和2.6倍 。 HPC单核心性能方面 , 同样是这三项测试 , 32核心的EPYC 9374F性能是同为32核心的至强铂金8362的2倍、1.7倍和1.7倍 。

▲EPYC 9004系列不同型号处理器的单核心整数性能都大幅领先对手

▲EPYC 9004系列不同型号处理器的单核心浮点性能同样大幅领先

▲HPC性能方面 , EPYC 9004实现了对英特尔处理器的碾压态势 。
此外 , AMD还评估了空间和电能需求 。 在同时处理1995个虚拟化需求的时候 , 2P的EPYC 9654处理器只需要5台服务器即可完成 , 与之对应的英特尔至强铂金8380则需要15台服务器 , AMD节约了67%的机架数量、52%的电能消耗(相当于34英亩森林所释放的二氧化碳值) , 降低了40%的1年服务TCO 。