NVIDIA|144核 NVIDIA最强CPU芯片架构深入解读( 二 )


与八通道 DDR5 设计相比,NVIDIA Grace CPU LPDDR5X 内存子系统以每千兆字节每秒八分之一的功率提供高达 53% 的带宽,同时成本相似 。HBM2e 内存子系统本可以提供大量内存带宽和良好的能效,但每 GB 成本是其 3 倍多,并且仅为 LPDDR5X 可用最大容量的八分之一 。 
LPDDR5X 较低的功耗降低了整体系统功率要求,并使更多资源能够用于 CPU 内核 。紧凑的外形使基于 DIMM 的典型设计的密度提高了 2 倍 。 
NVIDIA Grace CPU I/O 
NVIDIA Grace CPU Superchip 支持多达 128 条用于 IO 连接的 PCIe Gen 5 通道 。8 个 PCIe Gen 5 x16 链路中的每一个都支持高达 128 GB/s 的双向带宽,并且可以分为 2x8 个以提供额外的连接,并且可以支持各种 PCIe 插槽形状因数,开箱即用地支持NVIDIA GPU和NVIDIA DPU、NVIDIA ConnectX SmartNIC、E1.S 和 M.2 NVMe 设备、模块化 BMC 选项等 。? 
NVIDIA Grace CPU 核心架构 
为了实现最大的工作负载加速,快速高效的 CPU 是系统设计的重要组成部分 。Grace CPU 的核心是 Arm Neoverse V2 CPU 内核 。Neoverse V2 是 Arm V 系列基础架构 CPU 内核中的最新产品,经过优化可提供领先的每线程性能,同时与传统 CPU 相比提供领先的能效 。 
NVIDIA|144核 NVIDIA最强CPU芯片架构深入解读
文章图片

图4. NVIDIA Grace CPU 的 Arm Neoverse V2 内核
Arm架构 
NVIDIA Grace CPU Neoverse V2 核心实现了 Armv9-A 架构,它将 Armv8-A 架构中定义的架构扩展到 Armv8.5-A 。为 Armv8.5-A 之前的 Armv8 架构构建的任何应用程序二进制文件都将在 NVIDIA Grace CPU 上执行 。这包括针对 Ampere Altra、AWS Graviton2 和AWS Graviton3等 CPU 的二进制文件 。
SIMD指令
Neoverse V2 在 4×128 位配置中实现了两个单指令多数据 (SIMD) 向量指令集:可扩展向量扩展版本 2 (SVE2) 和高级 SIMD (NEON) 。四个 128 位功能单元中的每一个都可以退出 SVE2 或 NEON 指令 。这种设计使更多代码能够充分利用 SIMD 性能 。SVE2 通过高级指令进一步扩展了 SVE ISA,这些指令可以加速机器学习、基因组学和密码学等关键 HPC 应用程序 。 
原子操作 (Atomic operation )
NVIDIA Grace CPU 支持在 Armv8.1 中首次引入的大型系统扩展 (LSE) 。LSE 提供低成本的原子操作,可以提高 CPU 到 CPU 通信、锁和互斥锁的系统吞吐量 。这些指令可以对整数数据进行操作 。所有支持 NVIDIA Grace CPU 的编译器都将在同步函数中自动使用这些指令,例如 GNU 编译器集合__atomic内置函数和std::atomic. 当使用 LSE 原子而不是加载/存储独占时,改进可以达到一个数量级 。 
Armv9 附加功能 
NVIDIA Grace CPU 实现了 Armv9 产品组合的多项关键功能,可在通用数据中心 CPU 中提供实用程序,包括但不限于加密加速、可扩展分析扩展、虚拟化扩展、全内存加密、安全启动等 。 
NVIDIA Grace CPU 软件 
NVIDIA Grace CPU Superchip 旨在为软件开发人员提供符合标准的平台 。 
【NVIDIA|144核 NVIDIA最强CPU芯片架构深入解读】NVIDIA Grace CPU 符合 Arm 服务器基础系统架构 (SBSA),以支持符合标准的硬件和软件接口 。此外,为了在基于 Grace CPU 的系统上启用标准引导流程,Grace CPU 被设计为支持 Arm 服务器基本引导要求 (SBBR) 。所有主要的 Linux 发行版,以及它们提供的大量软件包,都可以在 NVIDIA Grace CPU 上完美运行,无需修改 。
编译器、库、工具、分析器、系统管理实用程序以及用于容器化和虚拟化的框架现已上市,并且可以像在任何其他数据中心 CPU 上一样轻松地在 NVIDIA Grace CPU 上安装和使用 。