阿里巴巴|全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS( 二 )


在正式推出之前 , 飞天智算平台在阿里云内经历了重重“历练” 。
拿很多人熟悉的淘宝APP中的“拍立淘”来说 , 其拍照识商品模型的训练 , 就通过飞天智算提速200倍 , 10亿图片训练时间从2.5个月缩短到8小时;全球最大规模的十万亿参数AI模型M6也用到了飞天智算 , 仅使用512张GPU在10天内训练出 , 且能耗仅为GPT-3在同等参数规模下的1% 。
目前 , 飞天智算平台已服务了深势科技、上汽集团、吉利集团、中国气象局、南方电网、北京大学等多个产学政机构 , 取得不错成果 , 比如助北大靶向药研究数据集计算效率预计性能提升100倍等 。
飞天智算平台正在支撑建设两座超大规模智算中心——河北张北智算中心和内蒙古乌兰察布智算中心 。
据称 , 这两大智算中心规划算力分别达12 EFLOPS和3 EFLOPS(FP16精度下) , 将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS , 成为全球最大的智算中心 。 粗略估算 , 如果15EFLOPS资源同时工作 , 一个万亿参数的AI大模型 , 大约需要10分钟就能完成全部训练 。

可以看到 , 平台+智算中心 , 阿里云正在将其经过实践验证的智算能力开放出来 , 与行业伙伴们一同奔赴新的效率革命高地 。
二、数智转型需求井喷 , 智算中心成数字经济发展“新引擎”数字经济发展进入窗口期 , “十四五”相关规划提出了多项指标:大数据产业测算规模突破3万亿元 , 在线政务服务超8亿人 , 建成500个以上智能制造示范工厂……“上云用数赋智”成为各个产业升级的迫切需求 。 调查机构IDC预测 , 2020-2023年 , 全球数字化转型的直接投资将超过6.8万亿美元 。
算力需求随之井喷 , 智算中心成为解决这些需求的有力抓手 。
那么智算中心和一般数据中心到底有什么本质性差别?又是如何提高算力效率的呢?
阿里云智算系统负责人曹政说 , 助推人工智能跨入效率时代 , 需要超大规模弹性智能算力池、超高计算效率 , 以及释放多元芯片算力 。 本次 , 阿里云本次推出的飞天智算平台及智算中心 , 相比于一般数据中心的主要特点如下:
1、融合算力峰值达12EFLOPS , 千卡并行效率达90%
飞天智算单集群采用通用计算、异构计算等多种计算形态融合 , 算力峰值高达12EFLOPS , 千卡并行效率达90% 。 针对数据密集型场景 , 飞天智算对大规模集群存储IO性能可提升10倍 , 可使万卡规模的AI集群通讯无拥塞 , 将时延显著降低90% 。
2、全链路AI开发工具与大数据服务 , 提供高效智能服务
飞天智算平台内置大数据+AI一体化产品体系 , 集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎 , 适用于多种AI场景的计算和开发需求 , 包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等 。 官方数据显示 , 其最多可提升AI训练效率11倍 , 推理效率6倍 。
3、一云多芯 , 支持国产芯片自主创新
值得一提的是 , 随着智算中心上升到新基建战略地位 , 对自主创新也提出更高的要求 。 飞天智算适配多种芯片架构 , 支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度 , 可以适配多种国内自研芯片 , 并进行应用优化 。
4、绿色低碳 , PUE最低降至1.09
在绿色低碳低碳方面 , 飞天智算中心采用浸没式液冷、风冷、AI调温、模块化设计等绿色技术建设 , PUE最低降至1.09 , 建设占地面积节省90% 。

可以看到 , 智算中心相较于一般数据中心的优势 , 远不止于算力 。 除了对算力规模和效率要求大大提高 , 智算中心还需要为客户提供软件平台层的产品和服务 , 这是算力真正落地产业“最后一公里”的关键 。 同时 , 自主创新和绿色低碳也是数字经济发展对智算中心的诉求 。