7月1日|英伟达再次霸榜mlperf( 二 ) 7月1日

文章图片
NVIDIAAI通过全栈的改进，持续带动性能提升。
与去年相比，基于英伟达DGXSuperPOD和DGXA100的系统测试表现均有较大提升。在DLRM（深度学习推荐模型）测试中，基于DGXSuperPOD系统得分更是提升了3.5倍。

文章图片
从硬件来看，这次征战的英伟达DGXA100GPU ，是第二次参与MLPerf测试， A100是Selene优异性能的保障，作为英伟达第八代数据中心GPU ，采用Ampere架构，实现了若干硬指标（具体可参见之前E企研究院分析：NVIDIA安培GPU：从TOP500走向云智应用）。
A100中包含了430个第三代TensorCore核心应用了NVLink3.0技术， GPU间通信带宽达到600GB/s ，是NVlink2.0的两倍，最高可支持16张A100GPU的互连。此外， A100中实现了多实例GPU技术，最多可分割成7个独立的GPU实例。
英伟达不仅在硬件层面提供更强的能力，软件算法和数据结构改进也提供了更高的效率，可谓基础设施换代的左右手，使用AI优化技术， A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求。

文章图片
Selene的软件环境主要基于NVIDIA的NGC容器化资源库来实现，它包含多种类面向深度学习和高性能计算的GPU优化软件工具，支持全栈范围内的性能优化，同时支持容器化的混合编程环境，这样的一套NVIDIA可控的软硬件环境可以为高性能计算和AI应用的用户提供方便的编程开发环境
其中， CUDAGraphs ，是英伟达新的异步任务图像（Task-Graph）编程模型，可以提升内核启动和执行的效率。此外，大规模测试中使用的是NVIDIASHARP 。该软件能够在网络交换机内整合多项通信工作，从而减少网络流量和等待CPU的时间。
CUDAGraphs和SHARP的结合，使数据中心能够使用有史以来最多的GPU进行训练。在诸如自然语言处理等很多领域，随着AI模型参数增加到数十亿的量级，这样的组合恰能提供所需的强大能力。
生态伙伴齐上阵简化客户选择流程
英伟达针对AI应用的优化技术，使得A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求，也推动了HPC和AI的融合，同时有力推进了大规模分布式AI应用的研究。
同时，异构计算和AI应用，英伟达的技术路线踩对了技术的发展脉搏，也匹配了时代的应用需求。这次参与测试的生态伙伴选用的是包含从入门级边缘服务器，到可容纳数千个GPU的AI超级计算机。包括参与最新基准测试的七家合作伙伴在内，共有二十多家云服务供应商和OEM厂商的产品或采用了NVIDIAA100GPU ，或计划为在线实例、服务器采用NVIDIAA100GPU ，包括近40款NVIDIA认证系统。
而在英伟达生态伙伴的共同努力下，可为客户提供各种部署模型选择，提供业内最高的性价比——从按分钟出租的实例，到本地服务器和托管服务。
比如德国癌症研究中心将3DUNet等创新技术引入医疗市场。作为行业标准的MLPerf基准测试提供了相关的性能数据，能够帮助IT机构和开发者找到合适的解决方案，以加速特定项目和应用。 ”
而制造行业的典范三星也参考MLPerf基准测试，使用AI来提高产品性能和制造效率。
用AI创新技术赋能各行各业，英伟达正在从硬件到软件不断加持企业打造强大的AI基础设施；而基于与生态伙伴的联合创新，企业根据场景适配产品方案，推动自身业务发展，促进业务智能升级。