3月21日 , 中国本土AI创新企业寒武纪正式发布了新款训练加速卡“MLU370-X8” , 搭载双芯片四芯粒封装的思元370 , 集成寒武纪MLU-Link多芯互联技术 , 主要面向AI训练任务 。
文章图片
寒武纪MLU370-X8智能加速卡首次整合了双芯片四芯粒的思元370 , 也就是每张卡两颗芯片 , 每颗芯片内封装两个Die , 因此可提供两倍于思元370加速卡的内存、编解码资源 。
架构基于CambriconMLUarch03 , 支持AI训练加速中常见的FP32、FP16、BF16、INT16、INT8、INT4数据格式计算 , 峰值性能分别为32TFlops、96TFlops、96TFlops、128Tops、256Tops、512Tops 。
该卡采用7nm制造工艺 , 集成48GBLPDDR5内存 , 内存带宽614.4GB/s , PCIe4.0x16系统接口 , 整卡最大训练功耗250W , 全高全长双插槽设计 , 系统被动散热 。
文章图片
单卡架构图
通过MLU-Link多芯互联技术 , 提供卡内、卡间互联功能 , 并专门设计了MLU-Link桥接卡 , 可实现4张加速卡为一组、8颗思元370芯片全互联 。
每张加速卡通讯吞吐性能200GB/s , 带宽为PCIe4.0的大约3.1倍 , 可高效执行多芯多卡训练、分布式推理任务 。
文章图片
4卡桥接
文章图片
单机8卡部署配置
文章图片
4卡桥接拓扑
根据官方数据 , CambriconNeuWareSDK实测 , 在常见的4个深度学习网络模型上 , MLU370-X8单卡性能与主流350WRTXGPU相当 。
【3月21日|寒武纪发布mlu370-x8智能加速卡】多卡加速 , 借助MLU-Link多芯互联技术、CambriconNeuWareCNCL通讯库的优化 , 8卡环境下达到更优的并行加速比 , YOLOv3、Transformer、BERT、ResNet101训练任务中 , 8卡并行平均性能达350WRTXGPU的155% 。
寒武纪未透露对比的NVIDIA350WRTXGPU是哪一款 , 从规格来看 , 350W功耗的目前只有RTX3090、RTX3080Ti 。
当然 , 一个是专用AI加速卡 , 一个是GPU通用游戏卡 , 其实没有太大可比性 。
MLU370-X8产品定位中高端 , 与高端训练产品思元290、玄思1000相互结合 , 进一步丰富了寒武纪的训练算力交付方式 , 同时与基于思元370芯粒(chiplet)技术构建的MLU370-X4、MLU370-S4智能加速卡协同 , 形成完整的云端训练、推理产品组合 。
文章图片
单卡性能对比
文章图片
8卡性能对比
文章图片
文章图片
如需转载请务必注明出处:快科技
责任编辑:上方文Q文章纠错
话题标签:显卡人工智能寒武纪科技
- 本文转自:四川观察2022年3月23日下午15点40分|?“天宫课堂”又上新 四川技术来“牵线”
- 本文转自:中国品牌杂志3月22日是“世界水日”|中国水周:中国盾构在全球水利水电工程广泛应用
- 本文转自:文汇客户端3月23日15时40分|太空“点水成冰”,“雪球”竟是“热球”?!王亚平揭秘太空实验背后玄机
- 本文转自:北青网3月23日|中国邮政首家小度智能体验店开张
- 3月23消息|iphonese3质量测试:防水性、耐摔性毫不逊色
- 流体|“天宫课堂”第二课干货满满
- 3月18日凌晨|android13新功能解析
- 本文转自:齐鲁壹点齐鲁晚报·齐鲁壹点记者 台雪超3月中旬|中国技术实力出海!海信中标埃塞俄比亚智能交通项目
- “天宫课堂”第二课开讲
- 福州市教育局辟谣