巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量( 二 )


这项突破可以带来的直接提升是 , 利用H100GPU , 研究人员和开发者能够训练庞大的模型 , 比如包含3950亿个参数的混合专家模型 , 训练速度加速高达9倍 , 训练时间从几周缩短到几天 。
巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量
文章图片
H100的第六个突破是对新的DPX指令可加速动态规划 , 适用于包括路径优化和基因组学在内的一系列算法 , 英伟达的测试数据显示 , 与CPU和上一代GPU相比 , 其速度提升分别可达40倍和7倍 。
另外 , Floyd-Warshall算法与Smith-Waterman算法也在H100DPX指令的加速之列 , 前者可以在动态仓库环境中为自主机器人车队寻找最优线路 , 后者可用于DNA和蛋白质分类与折叠的序列比对 。
硬件突破之外 , 英伟达也发布了一系列相应的软件更新 , 包括用于语音、推荐系统和超大规模推理等工作负载的NVIDIAAI软件套件 , 还有60多个针对CUDA-X的一系列库、工具和技术的更新 , 能够加速量子计算和6G研究、网络安全、基因组学和药物研发等领域的研究进展 。
显而易见 , H100GPU的六项突破 , 带来的是更高的计算性能 , 但这些性能的提升和优化 , 全都指向AI计算 , 这也是英伟达进一步扩大在AI计算领域领导力的体现 。
NVIDIAEos , 比全球最快超级计算机AI性能快4倍
有了性能升级的GPU , 英伟达的第四代DGX系统DGXH100也随之亮相 , 包括DGXPOD和DGXSupePOD两种架构 , 能够满足大型语言模型、推荐系统、医疗健康研究和气候科学的大规模计算需求 。
巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量
文章图片
巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量
文章图片
每个DGXH100系统配备八块NVIDIAH100GPU , 并由NVIDIANVLink连接 , 能够在新的FP8精度下达到32Petaflop的AI性能 , 比上一代系统性能高6倍 。 每个DGXH100系统还包含两个NVIDIABlueField-3DPU , 用于卸载、加速和隔离高级网络、存储及安全服务 。
新的DGXSuperPOD架构采用全新的NVIDIANVLinkSwitch系统 , 通过这一系统最多可连接32个节点 , 总计256块H100GPU 。 第四代NVLink与NVSwitch相结合 , 能够在每个DGXH100系统中的各个GPU之间实现900GB/s的连接速度 , 是上一代系统的1.5倍 。
新一代DGXSuperPOD性能同样显著提升 , 能够提供1Exaflops的FP8AI性能 , 比上一代产品性能高6倍 , 能够运行具有数万亿参数的庞大LLM工作负载 , 有助于推动气候科学、数字生物学和AI未来的发展 。
基于DGXH100 , 英伟达将在今年晚些时候开始运行全球运行速度最快的AI超级计算机——NVIDIAEos , “Eos"超级计算机共配备576台DGXH100系统 , 共计4608块DGXH100GPU , 预计将提供18.4Exaflops的AI计算性能 , 比日本的Fugaku(富岳)超级计算机快4倍 , 后者是目前运行速度最快的系统 。
在传统的科学计算方面 , Eos超级计算机预计将提供275Petaflop的性能 。
巨大飞跃!给英伟达1.6万亿个晶体管,它就能承托全球互联网流量
文章图片
黄仁勋说:“对于NVIDIA及OEM和云计算合作伙伴 , Eos将成为先进AI基础设施的蓝图 。 ”
576个DGXH100系统能够构建一台全球运行速度最快的AI系统 , 少量的DGXSuperPOD单元组合 , 也可以为汽车、医疗健康、制造、通信、零售等行业提供开发大型模型所需的AI性能 。
黄仁勋提到 , 为支持正在进行AI开发的DGX客户 , NVIDIADGX-Ready软件合作伙伴(包括DominoDataLab、Run:ai和Weights&Biases等)提供的MLOps解决方案将加入"NVIDIAAI加速"计划 。
为了简化AI部署 , 英伟达还推出了DGX-Ready托管服务计划 , 能够为希望与服务提供商开展合作来监督其基础设施的客户提供支持 。 通过新的DGX-Ready生命周期管理计划 , 客户还可以借助新的NVIDIADGX平台升级其现有DGX系统 。