英伟达新核弹GPU：4nm制程800亿晶体管，新Hopper架构太炸了( 二 ) 丰色萧箫发自凹非寺量子位|公

GraceHopper发明了世界上第一个编译器和COBOL语言，有“计算机软件工程第一夫人”之称。
训练3950亿参数大模型仅1天
当然， Hopper的新特性远不止体现在参数上。
这次，老黄特意在发布会上着重提到了Hopper首次配备的Transformer引擎。
嗯，专为Transformer打造，让这类模型在训练时保持精度不变、性能提升6倍，意味着训练时间从几周缩短至几天。
怎么表现？
现在，无论是训练1750亿参数的GPT-3（19小时），还是3950亿参数的Transformer大模型（21小时）， H100都能将训练时间从一周缩短到1天之内，速度提升高达9倍。
推理性能也是大幅提升，像英伟达推出的5300亿Megatron模型，在H100上推理时的吞吐量比A100直接高出30倍，响应延迟降低到1秒，可以说是完美hold住了。

文章图片
不得不说，英伟达这波确实突入了Transformer阵营。
在此之前，英伟达一系列GPU优化设计基本都是针对卷积架构进行的，接近要把“Ilove卷积”这几个字印在脑门上。
要怪只怪Transformer最近实在太受欢迎。（手动狗头）
当然， H100的亮点不止如此，伴随着它以及英伟达一系列芯片，随后都会引入NVIDIANVLink第四代互连技术。
也就是说，芯片堆堆乐的效率更高了， I/O带宽更是扩展至900GB/s 。

文章图片
这次，老黄还着重提到了GPU的安全性，包括实例之间具有隔离保护、新GPU具有机密计算功能等。
当然，数学计算能力也提升了。
这次H100上新的DPX指令可以加速动态规划，在运算路径优化和基因组学在内的一系列动态规划算法时速度提升了7倍。
据老黄介绍， H100会在今年第三季度开始供货，网友调侃“估计也便宜不了” 。
目前， H100有两个版本可选：
一个就是功率高达700W的SXM ，用于高性能服务器；另一个是适用于更主流的服务器PCIe ，功耗也比上一代A100的300W多了50W 。
4608块H100 ，打造全球最快AI超算
H100都发布了，老黄自然不会放过任何一个搭建超级计算机的机会。
基于H100推出的最新DGXH100计算系统，与上一代“烤箱”一样，同样也是配备8块GPU 。

文章图片
不同的是， DGXH100系统在FP8精度下达到了32Petaflop的AI性能，比上一代DGXA100系统整整高了6倍。
各GPU之间的连接速度也变得更快， 900GB/s的速度接近上一代的1.5倍。
最关键的是，这次英伟达还在DGXH100基础上，搭建了一台Eos超级计算机，一举成为AI超算界的性能TOP1——
光就18.4Exaflops的AI计算性能，就比日本的“富岳”（Fugaku）超级计算机快了4倍。
这台超算配备了576个DGXH100系统，直接用了4608块H100 。
即使是传统科学计算，算力也能达到275Petaflops（富岳是442Petaflops），跻身前5的超算是没什么问题。

文章图片
“拼装”CPU ，跑分成了TOP1
本次GTC大会，老黄仍然“提了几嘴”超级服务器芯片Grace 。
它在去年4月份的GTC大会就已经有所亮相，和当时一样，老黄表示：有望2023年可以开始供货，反正今年是不可能碰上了。
不过， Grace的性能倒是值得一提，有了“惊人进展” 。
它被用在两个超级芯片中：
一个是GraceHopper超级芯片，单MCM ，由一个GraceCPU和一个Hopper架构的GPU组成。