GPU|NVIDIA RESEARCH 为多个多芯片 GPU 引擎设计了一个课程( 二 )


甚至在本出版物成立之前 , 我们就已经注意到一个令人高兴的巧合 , 即 Nvidia 在 2000 年代后期帮助构建的 GPU 加速系统正是使机器学习算法最终起作用的那种机器 , 并且从2010 年代初 。 一个旨在进行大规模模拟的系统在大规模机器学习训练方面也表现出色 , 这是一个令人愉快的巧合 , 它不仅推动了两个市场的发展 , 还推动了这些工作负载的融合 , 如今注入 AI 的 HPC 绝对正常 。 但即使在两年前 , 我们也开始怀疑 HPC 和 AI 之间的这种和谐融合是否能够持续下去 , 并担心 AI 的硬件需求会将系统架构拉向不同的方向 。 从 Nvidia 研究人员的角度来看 , 情况确实如此 。
顺便说一下 , 这些 Nvidia 研究人员是重量级人物 , 其中包括: 架构研究副总裁 Steve Keckler;David Nellas , 系统架构研究组组长;Evgeny Bolotin , 高级系统架构师;和计算机架构师 Niladrish Chatterjee 。 除其他外 , 这种智囊团创造了2016 年推出的 GPU 和 CPU的 NVLink 内存互连 , 以及2018 年推出的 NVSwitch 结构 , 允许 GPU 内存的紧密耦合 , 以及 Echelon exascale 项目和之前的 MCM GPU 工作 。 Nvidia Research 的负责人 Bill Dally告诉我们 , NVSwitch 的商业化比预期早了几年 , 因为 AI 工作负载增长如此之快 , 这是必要的 。 早在 2017 年 , 他们就已经将 MCM 作为一般概念进行了先前的工作 , 表明使用四个较小的 GPU 小芯片的 MCM 实现可以比最大的可构建单片 GPU 提供 45.5% 的魅力 。 但在最近的这篇论文中 , 他们不太关心封装 , 而是关心 HPC 和 AI 工作负载之间的漂移 , 以及他们在近期和遥远的将来需要的 GPU 计算引擎类型 。
这可能是未来 Nvidia GPU 代号如此混乱的原因之一 。 我们可能听说过针对 HPC 或 AI 工作负载调整的 MCM 变体 。
虽然英伟达在 MCM 上做了很多工作 , 但由于留在一块硅上的所有明显优势 , 它一直等到最后一刻才做出跳跃 。 由于 AMD 和 Intel 都在他们当前的数据中心 GPU 上使用小芯片架构——同样出于显而易见的原因 , 受成本、光罩限制和摩尔定律放缓的推动——我们认为至少用不了多久 , 至少有一些 GPU基于 MCM 设计 。 数据中心 GPU 引擎是显而易见的起点 , 正如 AMD 展示的“Aldebaran”GPU 以及英特尔今年将展示的“Ponte Vecchio”GPU 。
Nvidia 对 MCM GPU 的最新尝试被称为 Composable On Package GPU , 或简称为 COPA , 除了这个故事之外 , 我们永远不会再使用这个缩写 , 除非某些东西 , 也许是 NVSwitch 3.0 , 被称为 CABANA 。 而且这项研究并不是真正的一种封装方法 , 而是一种针对特定于 HPC 和 AI 工作负载的特定领域 GPU 的不同封装方法的模拟 。 这与其说是未来 Nvidia 数据中心 GPU 的蓝图 , 不如说是对用于构建它们的工具包的讨论 , 并肯定 HPC-AI 融合在插槽级别会变得不协调 , 但插槽内的许多组件仍将由面向 HPC 和 AI 工作负载的未来 GPU 共享 。
Nvidia 看到的基本划分是 HPC 工作负载 , 它需要大量 FP64 和 FP32 数学能力以及适度的内存和内存带宽 , 以及 AI 工作负载 , 需要大量低精度数学以及一些高精度浮点数等等重要的是 , 比 HPC 工作负载更多的内存容量和内存带宽 。 (我们发现这很难相信 , 因为许多 HPC 中心可能会这样做 。 )英伟达对其假设的 GPU-N 设备所做的模拟工作并没有改变设备中计算元素的类型和数量——尽管这肯定会发生在英伟达今年和未来推出的真正 GPU 引擎——而是使用小芯片设计改变了这些计算引擎的包实现缓存和主内存的方式 。

我们假设 GPU-N 是在 5 纳米工艺中实现的 , 代表了现有 GA100 GPU 电机的缩小 。 (在论文的任何地方都没有说 , 这是一个合理的猜测 。 )假设比率相同 , 这个 GPU-N 将只有 12 teraflops 的 FP64 性能——远低于英特尔的 45 teraflops为Ponte Vecchio GPU和 47.9 teraflops 的投影AMD 为Aldebaran GPU及其各自的矢量引擎提供 。 并不是说这篇论文展示了这一点 , 而是这些 GPU-N 设备中有四个实现了 48 teraflops 的 FP64 , 现在所有三个供应商都在进行游戏 。 我们并不是说 Hopper 或 Lovelace 或任何其他未来的 Nvidia GPU 可以做到这一点 , 但 Nvidia 已经证明它可以做到 。