7月1日|英伟达再次霸榜mlperf( 二 )


7月1日|英伟达再次霸榜mlperf
文章图片
NVIDIAAI通过全栈的改进 , 持续带动性能提升 。
与去年相比 , 基于英伟达DGXSuperPOD和DGXA100的系统测试表现均有较大提升 。 在DLRM(深度学习推荐模型)测试中 , 基于DGXSuperPOD系统得分更是提升了3.5倍 。
7月1日|英伟达再次霸榜mlperf
文章图片
从硬件来看 , 这次征战的英伟达DGXA100GPU , 是第二次参与MLPerf测试 , A100是Selene优异性能的保障 , 作为英伟达第八代数据中心GPU , 采用Ampere架构 , 实现了若干硬指标(具体可参见之前E企研究院分析:NVIDIA安培GPU:从TOP500走向云智应用) 。
A100中包含了430个第三代TensorCore核心应用了NVLink3.0技术 , GPU间通信带宽达到600GB/s , 是NVlink2.0的两倍 , 最高可支持16张A100GPU的互连 。 此外 , A100中实现了多实例GPU技术 , 最多可分割成7个独立的GPU实例 。
英伟达不仅在硬件层面提供更强的能力 , 软件算法和数据结构改进也提供了更高的效率 , 可谓基础设施换代的左右手 , 使用AI优化技术 , A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求 。
7月1日|英伟达再次霸榜mlperf
文章图片
Selene的软件环境主要基于NVIDIA的NGC容器化资源库来实现 , 它包含多种类面向深度学习和高性能计算的GPU优化软件工具 , 支持全栈范围内的性能优化 , 同时支持容器化的混合编程环境 , 这样的一套NVIDIA可控的软硬件环境可以为高性能计算和AI应用的用户提供方便的编程开发环境
其中 , CUDAGraphs , 是英伟达新的异步任务图像(Task-Graph)编程模型 , 可以提升内核启动和执行的效率 。 此外 , 大规模测试中使用的是NVIDIASHARP 。 该软件能够在网络交换机内整合多项通信工作 , 从而减少网络流量和等待CPU的时间 。
CUDAGraphs和SHARP的结合 , 使数据中心能够使用有史以来最多的GPU进行训练 。 在诸如自然语言处理等很多领域 , 随着AI模型参数增加到数十亿的量级 , 这样的组合恰能提供所需的强大能力 。
生态伙伴齐上阵简化客户选择流程
英伟达针对AI应用的优化技术 , 使得A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求 , 也推动了HPC和AI的融合 , 同时有力推进了大规模分布式AI应用的研究 。
同时 , 异构计算和AI应用 , 英伟达的技术路线踩对了技术的发展脉搏 , 也匹配了时代的应用需求 。 这次参与测试的生态伙伴选用的是包含从入门级边缘服务器 , 到可容纳数千个GPU的AI超级计算机 。 包括参与最新基准测试的七家合作伙伴在内 , 共有二十多家云服务供应商和OEM厂商的产品或采用了NVIDIAA100GPU , 或计划为在线实例、服务器采用NVIDIAA100GPU , 包括近40款NVIDIA认证系统 。
而在英伟达生态伙伴的共同努力下 , 可为客户提供各种部署模型选择 , 提供业内最高的性价比——从按分钟出租的实例 , 到本地服务器和托管服务 。
比如德国癌症研究中心将3DUNet等创新技术引入医疗市场 。 作为行业标准的MLPerf基准测试提供了相关的性能数据 , 能够帮助IT机构和开发者找到合适的解决方案 , 以加速特定项目和应用 。 ”
而制造行业的典范三星也参考MLPerf基准测试 , 使用AI来提高产品性能和制造效率 。
用AI创新技术赋能各行各业 , 英伟达正在从硬件到软件不断加持企业打造强大的AI基础设施;而基于与生态伙伴的联合创新 , 企业根据场景适配产品方案 , 推动自身业务发展 , 促进业务智能升级 。