7月1日|英伟达再次霸榜mlperf( 二 )
文章图片
NVIDIAAI通过全栈的改进 , 持续带动性能提升 。
与去年相比 , 基于英伟达DGXSuperPOD和DGXA100的系统测试表现均有较大提升 。 在DLRM(深度学习推荐模型)测试中 , 基于DGXSuperPOD系统得分更是提升了3.5倍 。
文章图片
从硬件来看 , 这次征战的英伟达DGXA100GPU , 是第二次参与MLPerf测试 , A100是Selene优异性能的保障 , 作为英伟达第八代数据中心GPU , 采用Ampere架构 , 实现了若干硬指标(具体可参见之前E企研究院分析:NVIDIA安培GPU:从TOP500走向云智应用) 。
A100中包含了430个第三代TensorCore核心应用了NVLink3.0技术 , GPU间通信带宽达到600GB/s , 是NVlink2.0的两倍 , 最高可支持16张A100GPU的互连 。 此外 , A100中实现了多实例GPU技术 , 最多可分割成7个独立的GPU实例 。
英伟达不仅在硬件层面提供更强的能力 , 软件算法和数据结构改进也提供了更高的效率 , 可谓基础设施换代的左右手 , 使用AI优化技术 , A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求 。
文章图片
Selene的软件环境主要基于NVIDIA的NGC容器化资源库来实现 , 它包含多种类面向深度学习和高性能计算的GPU优化软件工具 , 支持全栈范围内的性能优化 , 同时支持容器化的混合编程环境 , 这样的一套NVIDIA可控的软硬件环境可以为高性能计算和AI应用的用户提供方便的编程开发环境
其中 , CUDAGraphs , 是英伟达新的异步任务图像(Task-Graph)编程模型 , 可以提升内核启动和执行的效率 。 此外 , 大规模测试中使用的是NVIDIASHARP 。 该软件能够在网络交换机内整合多项通信工作 , 从而减少网络流量和等待CPU的时间 。
CUDAGraphs和SHARP的结合 , 使数据中心能够使用有史以来最多的GPU进行训练 。 在诸如自然语言处理等很多领域 , 随着AI模型参数增加到数十亿的量级 , 这样的组合恰能提供所需的强大能力 。
生态伙伴齐上阵简化客户选择流程
英伟达针对AI应用的优化技术 , 使得A100GPU能够游刃有余的应对多用户、不同规模AI负载对于GPU硬件资源的需求 , 也推动了HPC和AI的融合 , 同时有力推进了大规模分布式AI应用的研究 。
同时 , 异构计算和AI应用 , 英伟达的技术路线踩对了技术的发展脉搏 , 也匹配了时代的应用需求 。 这次参与测试的生态伙伴选用的是包含从入门级边缘服务器 , 到可容纳数千个GPU的AI超级计算机 。 包括参与最新基准测试的七家合作伙伴在内 , 共有二十多家云服务供应商和OEM厂商的产品或采用了NVIDIAA100GPU , 或计划为在线实例、服务器采用NVIDIAA100GPU , 包括近40款NVIDIA认证系统 。
而在英伟达生态伙伴的共同努力下 , 可为客户提供各种部署模型选择 , 提供业内最高的性价比——从按分钟出租的实例 , 到本地服务器和托管服务 。
比如德国癌症研究中心将3DUNet等创新技术引入医疗市场 。 作为行业标准的MLPerf基准测试提供了相关的性能数据 , 能够帮助IT机构和开发者找到合适的解决方案 , 以加速特定项目和应用 。 ”
而制造行业的典范三星也参考MLPerf基准测试 , 使用AI来提高产品性能和制造效率 。
用AI创新技术赋能各行各业 , 英伟达正在从硬件到软件不断加持企业打造强大的AI基础设施;而基于与生态伙伴的联合创新 , 企业根据场景适配产品方案 , 推动自身业务发展 , 促进业务智能升级 。
- 百度|传英伟达加大GeForce RTX 3050供应力度,大量供货将在春节后到来
- 400亿芯片交易接近尾声,英伟达、ARM表明态度,禁止收购后
- 军工|中国版“英伟达”诞生,核心技术完全自研,国产替代即将崛起
- 去年7月底|日产全新奇骏销量暴跌2808辆中国消费者未必买账
- 英伟达 RTX 3090 Ti 经销商定价曝光,约 2.2 万元起
- 英伟达|被称“中国版英伟达”,核心技术100%自研,年收入大涨超65%
- 英伟达发布12G显存版3080!AI超级分辨率:1080p帧数、4K画质
- 英伟达|NVIDIA晒《黑客帝国4》定制版3080 Ti:中国限量仅此一块
- 飞利浦·斯塔克|原价买显卡时代即将来临!英伟达:今年火力全开加大显卡产能
- 安卓|400亿芯片交易接近尾声,英伟达、ARM表明态度,禁止收购后果严重