NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?( 二 )


NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?
文章图片

如果我们回到 2018 年,那时 BERT 模型是最先进的,Nvidia V100 是最先进的 GPU,我们可以看到矩阵乘法不再是提高模型性能的主要因素 。从那时起,最先进的模型在参数数量上增长了 3 到 4 个数量级,而最快的 GPU 在 FLOPS 上增长了一个数量级 。
NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?
文章图片

即使在 2018 年,纯计算绑定的工作负载也占 FLOPS 的 99.8%,但仅占运行时的 61% 。与矩阵乘法相比,归一化和逐点运算分别实现了 250 倍和 700 倍的 FLOPS,但它们消耗了模型运行时间的近 40% 。
内存墙
随着模型规模的不断飙升,大型语言模型仅用于模型权重就需要 100 GB(如果不是 TB) 。百度和 Meta 部署的生产推荐网络需要数十 TB 的内存来存储其海量嵌入表 。
大型模型训练/推理中的大部分时间都没有花在计算矩阵乘法上,而是在等待数据到达计算资源 。显而易见的问题是,为什么架构师不将更多内存放在更靠近计算的位置 。答案是显而易见的——成本 。
NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?
文章图片

内存遵循从近、快到慢、便宜的层次结构 。最近的共享内存池在同一芯片上,一般由SRAM构成 。一些机器学习 ASIC 试图利用巨大的 SRAM 池来保存模型权重,但这种方法存在问题 。
即使是 Cerebras 的价值约 5,000,000 美元的晶圆级芯片也只有 40GB 的 SRAM 。内存容量不足以容纳 100B+ 参数模型的权重 。
Nvidia 的体系结构在裸片上一直使用的内存量要少得多 。当前一代A100有40MB,下一代H100有50MB 。台积电 5 纳米工艺节点上的 1GB SRAM 需要约 200mm^2 的硅 。
一旦实现了相关的控制逻辑/结构,将需要超过 400mm^2 的硅,或 Nvidia 数据中心 GPU 总逻辑面积的大约 50% 。
鉴于 A100 GPU 的成本为 1 万美元以上,而 H100 更接近 2 万美元以上,从经济角度来看,这是不可行的 。
即使忽略 Nvidia 在数据中心 GPU 上约 75% 的毛利率(约 4 倍加价),对于完全量产的产品,每 GB SRAM 内存的成本仍将在 100 美元左右 。
此外,片上SRAM存储器的成本不会随着传统摩尔定律工艺技术的缩小而降低太多 。同样的1GB内存,采用台积电下一代3nm制程工艺,成本反而更高 。虽然 3D SRAM 将在一定程度上帮助降低 SRAM 成本,但这只是曲线的暂时弯曲 。
内存层次结构的下一步是紧密耦合的片外内存 DRAM 。DRAM 的延迟比 SRAM 高一个数量级(~>100 纳秒对~10 纳秒),但它也便宜得多($1sa GB 对 $100s GB 。)
几十年来,DRAM 一直遵循着摩尔定律 。当戈登摩尔创造这个词时,英特尔的主要业务是 DRAM 。他对晶体管密度和成本的经济预测在 2009 年之前对 DRAM 普遍适用 。不过自 2012 年以来,DRAM 的成本几乎没有改善 。
NVIDIA|NVIDIA独家绝技 CUDA正在被赶下神坛?
文章图片

对内存的需求只会增加 。DRAM 现在占服务器总成本的 50%? 。这就是内存墙,它已经出现在产品中 。
将 Nvidia 2016年的P100 GPU 与2022 刚刚开始出货的H100 GPU 进行比较,内存容量增加了 5 倍(16GB -> 80GB),但 FP16 性能增加了 46 倍(21.2 TFLOPS -> 989.5 TFLOPS) 。
虽然容量是一个重要的瓶颈,但它与另一个主要瓶颈带宽密切相关 。增加的内存带宽通常是通过并行性获得的 。