英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网

机器之心报道
编辑;泽南、杜伟
黄仁勋:芯片每代性能都翻倍 , 而且下个「TensorFlow」级AI工具可是我英伟达出的 。
每年春天 , AI从业者和游戏玩家都会期待英伟达的新发布 , 今年也不例外 。
北京时间3月22日晚 , 新一年度的GTC大会如期召开 , 英伟达创始人、CEO黄仁勋这次走出了自家厨房 , 进入元宇宙进行Keynote演讲:
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
「我们已经见证了AI在科学领域发现新药、新化合物的能力 。 人工智能现在学习生物和化学 , 就像此前理解图像、声音和语音一样 。 」黄仁勋说道「一旦计算机能力跟上 , 像制药这样的行业就会经历此前科技领域那样的变革 。 」
GPU发展引爆的AI浪潮从开始到今天还没过去十年 , Transformer这样的预训练模型和自监督学习模型 , 已经不止一次出现「算不起」的情况了 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
算力需求因为大模型呈指数级上升 , 老黄这次拿出的是面向高性能计算(HPC)和数据中心的下一代Hopper架构 , 搭载新一代芯片的首款加速卡被命名为H100 , 它就是A100的替代者 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
Hopper架构的名称来自于计算机科学先驱GraceHopper , 其延续英伟达每代架构性能翻倍的「传统」 , 还有更多意想不到的能力 。
为GPT-3这样的大模型专门设计芯片
H100使用台积电5nm定制版本制程(4N)打造 , 单块芯片包含800亿晶体管 。 它同时也是全球首款PCI-E5和HBM3显卡 , 一块H100的IO带宽就是40terabyte每秒 。
「为了形象一点说明这是个什么数字 , 20块英伟达H100带宽就相当于全球的互联网通信 , 」黄仁勋说道 。
黄仁勋列举了Hopper架构相对上代安培的五大革新:
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
首先是性能的飞跃式提升 , 这是通过全新张量处理格式FP8实现的 。 H100的FP8算力是4PetaFLOPS , FP16则为2PetaFLOPS , TF32算力为1PetaFLOPS , FP64和FP32算力为60TeraFLOPS 。
虽然比苹果M1Ultra的1140亿晶体管数量要小一些 , 但H100的功率可以高达700W——上代A100还是400W 。 「在AI任务上 , H100的FP8精度算力是A100上FP16的六倍 。 这是我们历代最大的性能提升 , 」黄仁勋说道 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
图片来源:anandtech
Transformer类预训练模型是当前AI领域里最热门的方向 , 英伟达甚至以此为目标专门优化H100的设计 , 提出了TransformerEngine , 它集合了新的TensorCore、FP8和FP16精度计算 , 以及Transformer神经网络动态处理能力 , 可以将此类机器学习模型的训练时间从几周缩短到几天 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网】Transformer引擎名副其实 , 是一种新型的、高度专业化的张量核心 。 简而言之 , 新单元的目标是使用可能的最低精度来训练Transformer而不损失最终模型性能 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
针对服务器实际应用 , H100也可以虚拟化为7个用户共同使用 , 每个用户获得的算力相当于两块全功率的T4GPU 。 而且对于商业用户来说更好的是 , H100实现了业界首个基于GPU的机密计算 。
英伟达新架构发布,AI芯片上限提升了九倍,20块带宽就等于全球互联网
文章图片
Hopper还引入了DPX指令集 , 旨在加速动态编程算法 。 动态编程可将复杂问题分解为子问题递归解决 , HopperDPX指令集把这种任务的处理时间缩短了40倍 。