英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网( 二 )


Hopper架构的芯片和HBM3内存用台积电CoWoS2.5D工艺封装在板卡上 , 形成「超级芯片模组SXM」 , 就是一块H100加速卡:
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
这块显卡拿着可得非常小心——它看起来整体异常紧凑 , 整个电路板上塞满各种元器件 。 另一方面 , 这样的结构也适用于液冷——H100设计700W的TDP已经非常接近散热处理的上限了 。
自建全球第一AI超算
「科技公司处理、分析数据 , 构建AI软件 , 已经成为智能的制造者 。 他们的数据中心就是AI的工厂 , 」黄仁勋说道 。
基于Hopper架构的H100 , 英伟达推出了机器学习工作站、超级计算机等一系列产品 。 8块H100和4个NVLink结合组成一个巨型GPU——DGXH100 , 它一共有6400亿晶体管 , AI算力32petaflops , HBM3内存容量高达640G 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
新的NVLINKSwithSystem又可以最多把32台DGXH100直接并联 , 形成一台256块GPU的DGXPOD 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
「DGXPOD的带宽是每秒768terbyte , 作为对比 , 目前整个互联网的带宽是每秒100terbyte , 」黄仁勋说道 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
基于新superPOD的超级计算机也在路上 , 英伟达宣布基于H100芯片即将自建一个名叫EoS的超级计算机 , 其由18个DGXPOD组成 , 一共4608个H100GPU 。 以传统超算的标准看 , EoS的算力是275petaFLOPS , 是当前美国最大超算Summit的1.4倍 , Summit目前是基于A100的 。
从AI计算的角度来看 , EoS输出18.4Exaflops , 是当今全球第一超算富岳的四倍 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
总而言之 , EoS将会是世界上最快的AI超级计算机 , 英伟达表示它将会在几个月之后上线 。
下面看看H100在具体任务上的性能提升:单看GPU算力的话训练GPT-3速度提升6.3倍 , 如果结合新的精度、芯片互联技术和软件 , 提升增至9倍 。 在大模型的推理工作上 , H100的吞吐量是A100的30倍 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
对于传统服务器 , 英伟达提出了H100CNX , 通过把网络与H100直接并联的方式绕过PCIE瓶颈提升AI性能 。
英伟达更新了自家的服务器CPU , 新的GraceHopper可以在同一块主板上两块并联 , 形成一个拥有144核CPU , 功耗500W , 是目前产品性能的2-3倍 , 能效比也是两倍 。
在Grace上 , 几块芯片之间的互联技术是新一代NVlink , 其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联 。 黄仁勋特别指出 , GraceCPU与Hopper可以通过NVlink进行各种定制化配置 。 英伟达的技术可以满足所有用户需求 , 在未来英伟达的CPU、GPU、DPU、NIC和SoC都可以通过这种技术实现芯片端高速互联 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
英伟达计划在今年三季度推出配备H100的系统 , 包括DGX、DGXSuperPod服务器 , 以及来自OEM合作伙伴使用HGX基板和PCIe卡服务器 。
至于价格 , 昨天老黄并没有说「themoreyoubuy,themoreyousave.」
此前有传闻说专用于游戏的AdaLovelace架构 , 昨天并没有出现在黄仁勋的keynote中 , 看来还要再等等 。
人人可见的元宇宙
「第一波AI学习了生物的预测推断能力 , 如图像识别、语言理解 , 也可以向人们推荐商品 。 下一波AI将是机器人:AI做出计划 , 在这里是数字人、物理的机器人进行感知、计划并行动 , 」黄仁勋说道 。 「TensorFlow和PyTorch等框架是第一波AI必须的工具 , 英伟达的Omniverse是第二波AI的工具 , 将会开启下一波AI浪潮 。 」