3月21日|寒武纪发布mlu370-x8智能加速卡 3月21日

3月21日，中国本土AI创新企业寒武纪正式发布了新款训练加速卡“MLU370-X8” ，搭载双芯片四芯粒封装的思元370 ，集成寒武纪MLU-Link多芯互联技术，主要面向AI训练任务。

文章图片
寒武纪MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370 ，也就是每张卡两颗芯片，每颗芯片内封装两个Die ，因此可提供两倍于思元370加速卡的内存、编解码资源。
架构基于CambriconMLUarch03 ，支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算，峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops 。
该卡采用7nm制造工艺，集成48GBLPDDR5内存，内存带宽614.4GB/s ， PCIe4.0x16系统接口，整卡最大训练功耗250W ，全高全长双插槽设计，系统被动散热。

文章图片
单卡架构图
通过MLU-Link多芯互联技术，提供卡内、卡间互联功能，并专门设计了MLU-Link桥接卡，可实现4张加速卡为一组、8颗思元370芯片全互联。
每张加速卡通讯吞吐性能200GB/s ，带宽为PCIe4.0的大约3.1倍，可高效执行多芯多卡训练、分布式推理任务。

文章图片
4卡桥接

文章图片
单机8卡部署配置

文章图片
4卡桥接拓扑
根据官方数据， CambriconNeuWareSDK实测，在常见的4个深度学习网络模型上， MLU370-X8单卡性能与主流350WRTXGPU相当。
【3月21日|寒武纪发布mlu370-x8智能加速卡】多卡加速，借助MLU-Link多芯互联技术、CambriconNeuWareCNCL通讯库的优化， 8卡环境下达到更优的并行加速比， YOLOv3、Transformer、BERT、ResNet101训练任务中， 8卡并行平均性能达350WRTXGPU的155％。
寒武纪未透露对比的NVIDIA350WRTXGPU是哪一款，从规格来看， 350W功耗的目前只有RTX3090、RTX3080Ti 。
当然，一个是专用AI加速卡，一个是GPU通用游戏卡，其实没有太大可比性。
MLU370-X8产品定位中高端，与高端训练产品思元290、玄思1000相互结合，进一步丰富了寒武纪的训练算力交付方式，同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同，形成完整的云端训练、推理产品组合。

文章图片
单卡性能对比

文章图片
8卡性能对比

文章图片

文章图片
如需转载请务必注明出处：快科技
责任编辑：上方文Q文章纠错
话题标签：显卡人工智能寒武纪科技