阿里巴巴|全球最大!阿里云推飞天智算平台,单集群算力超12EFLOPS( 三 )


高质量智算中心 , 将成为政企把握数字经济发展“窗口期”的新引擎 。
三、三路玩家“抢滩”智算产业 , 阿里云13年底层技术创新大爆发近年来 , 各地智算中心如雨后春笋般涌现 , 据工信部统计 , 目前全国建成和在建的智算中心已有20多座 。 纵观产业界 , 阿里云、腾讯云这样的云计算大厂 , 华为、浪潮、曙光等ICT厂商 , 还有三大运营商及各地的大中小集成商都已经入局了 , 可谓摩拳擦掌 。
值得一提的是 , 智算中心建设很重要 , 在建设完后能“用起来”更加重要 。
产业究竟需要什么样的智算服务?
正如前文提到 , 智算中心要具备高效算力、AI赋能、自主创新、绿色节能等多种特征 。 阿里云智能全球销售总裁蔡英华认为 , 智算不仅在于规模大 , 更是需要绿色、高效并且具备产业实践 。 计算是一个庞大的复杂系统 , 没有体系化的核心技术能力 , 堆硬件是堆不出算力的 , 更无法带来实际的产业价值 。
自2015年起 , 阿里云在河北张北、内蒙古枢纽乌兰察布、江苏南通、浙江杭州、广东河源等地布局数据中心 。 在本次推出的飞天智算平台中 , 阿里云也对13年研发的云网技术进行了集大成总结 , 以“灵骏”智能算力系统的形式打包赋能给产业 。

灵骏拥有业界领先的异构计算弹性能力 , 以低通信延时、高并行计算效率为特征 。 这是如何实现的?
曹政谈道 , 这主要源于以下几大自研技术点:
1、自研RDMA高速网络架构 , AI集群的“高速路”
阿里自2016年起投入研究RDMA(远程直接内存访问) , 目前已建成全球最大规模数据中心内的“高速网” 。 基于端网协同的Solar-RDMA高性能网络协议和HPCC流控算法 , 灵骏能有效规避和弱化了网络故障、网络黑洞等灾害损失 。
2、高性能集合通信库ACCL , “防堵车”的调度系统
通过自研高性能ACCL(集合通信库)+自研硬件(如自研网络交换机) , 灵骏可实现GPU和网卡的智能匹配、节点内外物理拓扑自动识别及拓扑感知的无拥塞通信算法 , 对万卡规模的AI集群提供无拥塞、高性能的集群通讯能力 。
3、加速软件KSpeed , 对特定需求“加Buff”
计算存储分离架构的“存储墙”问题显著 , 为此 , 阿里云通过自研高性能数据主动加载加速软件KSpeed 。 基于KSpeed , 在部分场景中数据加载耗时可占据训练整体时长60%以上 , 能够将数据加载时长缩减到10%以内 , 相当于将单位时间内的计算性能提升了1倍 。
当解决了云网问题 , AI是智算中心更高层面的要求 , 同时是核心诉求 。
阿里云飞天智算平台的一大特色 , 就是支持一套大数据+AI一体化产品体系 。 以机器学习平台PAI为例 , 它提供了模型训练部署、推理优化等AI工程化工具 , 比开源框架训练性能提升30%以上 。 PAI可为万亿级别参数的超大模型训练提效超过7倍 , 整体能耗降低80%;PAI-blade以较低门槛 , 可将大规模预训练模型压缩100倍以上 , 减少端到端模型部署成本10倍以上 , 支撑大量复杂模型在对话机器人、自动驾驶、智能制造、金融量化等场景的应用 。
飞天智算平台还开放海量阿里达摩院研发的AI模型 , 覆盖多模态大模型、视觉模型、NLP模型和语音模型等 。 达摩院是中国最早投入预训练语言模型研究的团队之一 , 多模态大模型M6的参数规模居全球之首 , 深度语言大模型AliceMind曾以81.26%准确率刷新国际权威机器视觉榜单VQA记录 。
值得一提的是 , 从“中国算力一张网”战略布局来看 , 智算中心网建设需要有全局系统化意识 。
2022年2月启动的”东数西算”工程明确要求数据中心建设“集约化” , 划定京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏8地为国家算力枢纽节点 。 阿里云两大智算中心等算力节点选址在枢纽节点 , 有望为“中国算力一张网”大战略提供助力 。 同时 , 阿里云在上海的华东智算中心也已在建设中 , 并有海外项目正在接洽 。