显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量

他来了他来了,老黄带着英伟达的最新一代GPU来了 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

之前大家猜的5nm错了,一手大惊喜,老黄直接上了台积电4nm工艺 。
新卡取名H100,采用全新Hopper架构,直接集成了800亿个晶体管,比上一代A100足足多了260亿个 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

【显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量】内核数量则飙到了前所未有的16896个,达到上一代A100卡的2.5倍 。
浮点计算和张量核心运算能力也随之翻了至少3倍,比如FP32就达到了达到60万亿次/秒 。
特别注意的是,H100面向AI计算,针对Transformer搭载了优化引擎,让大模型训练速度直接 x 6 。
(可算知道5300亿参数的威震天-图灵背后的秘诀了 。)
作为一款性能爆炸的全新GPU,不出意外,H100将与前辈V100、A100一样成为AI从业者心心念念的大宝贝 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

不过不得不提,它的功耗也爆炸了,达到了史无前例的700W,重回核弹级别 。
关于自研的Grace CPU,这次大会也公布了更多细节 。
没想到,老黄从库克那里学来一手1+1=2,两块CPU“粘”在一起组成了CPU超级芯片——Grace CPU Superchip 。
Grace CPU采用最新Arm v9架构,两块总共拥有144个核心,拥有1TB/s的内存带宽,比苹果最新M1 Ultra的800GB/s还高出一截 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

基于全新CPU、GPU基础硬件,这次发布会也带来了下一代企业级AI基础设施DXG H100、全球最快AI超算Eos 。
当然,英伟达作为真正的元宇宙先驱,也少不了Omniverse上的新进展 。
下面具体来看看 。
首款Hopper架构GPU,性能暴增
作为上一代GPU架构A100(安培架构)的继承者,搭载了全新Hopper架构的H100有多突飞猛进?
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

话不多说,先上参数:
老黄可谓下血本,先是直接采用了台积电4nm工艺,晶体管一口气集成了800亿个 。
要知道,上一代A100还只是7nm架构,这次发布会出来前,外界不少声音猜测老黄会用5nm制程,结果一发布就给大家来了个大惊喜 。
最恐怖的是CUDA核心直接飙升到了16896个,直接达到了A100的近2.5倍 。(要知道从V100到A100的时候,核心也不过增加那么一丝丝)
这次可不能感慨老黄刀法精准了 。
再看浮点运算和INT8/FP16/TF32/FP64的张量运算,性能基本全部提升3倍不止,相比来看,前两代的架构升级也显得小打小闹 。
这也使得H100的热功耗(TDP)直接达到了前所未有的700w,英伟达“核弹工厂”名副其实(手动狗头) 。
显卡|英伟达新核弹GPU:800亿晶体管 20张即可承载全球流量
文章图片

话又说回来,这次H100也是首款支持PCle 5.0和HBM3的GPU,数据处理速度进一步飞升——内存带宽达到了3TB/s 。
这是什么概念?
老黄在发布会上神秘一笑:只需要20个H100在手,全球互联网流量我有 。
整体参数细节究竟如何,与前代A100和V100对比一下就知道了: