阿里巴巴|阿里云CIPU下笔惊雷,方寸间书写中国算力故事( 二 )


简单来说 , 云计算架构的创新方向主要有几个:
1.性能升级 。 云计算一定是性能先行 , 才能成为千行百业数字化的算力底座 , 尤其是第四次工业革命中智能技术的大量应用 , 深度学习对于算力资源的消耗是极大的 , 要求云处理器提供更强的算力 , 实现每比特性能最优 。 不仅需要硬件升级 , 创新传统计算架构 , 提升单位算力的效率;还需要软件升级 , 解决软件定义虚拟化中出现的资源损耗 。
2.业务效益 。 各行各业使用云服务 , 不单单是降低服务器成本还希望通过云为管道引入新技术 , 对大量业务数据进行分析处理 , 释放数据价值 , 也就是说单位算力所能贡献的GDP要提高 。 数据密集型的计算越来越多 , 算力分布在边、端、云、网等多个维度 , 数据的迁移量和吞吐率也增多 , 解决超大规模分布式集群之间网络传输、管理的问题 , 才能满足客户对低时延、高带宽的需求 。

3.绿色低碳 。 上云用数赋智成为趋势 , 计算无处不在 , 算力基础设施的能耗问题也引发社会关注 , 计算产业的可持续发展 , 需要低功耗、高性能的并发处理能力 , 减少虚拟化中的损耗 , 以达到单位比特的能效比最优 , 满足各行各业绿色低碳、节能减排的发展需求 。
方兴未艾的云计算 , 相当于一张更新的图纸 , 等待着人来书写底层计算架构范式转换的新篇章 , 而阿里云用CIPU率先落下了遒劲的一笔 。
入木:CIPU怎么解开算力桎梏?
计算架构更新 , 是必然的未来 , 对于中国云厂商来说 , 怎样在自己擅长的技术赛道上建立起差异化优势 , 就成了当务之急 。 纵览全球领先的计算厂商 , 谷歌专门发布了应对AI任务的TPU , 亚马逊在云服务器、云端AI推理芯片上也有所突破 , 以GPU为主营业务的英伟达业尝试进入数据中心业务推出DPU , 老牌厂商英特尔也推出IPU , 国内也有云厂商推出了自己的计算硬件 。
需要注意的是 , 云端算力实际上受非常多的条件影响 , 除了芯片的比拼 , 还有网络、算法优化、集群性能、部署环境、数据处理能力、框架等一系列要素 , 整体决定了云计算的优越性 。 阿里云为新型云数据中心设计的专用处理器CIPU , 正是考虑到云时代的算力所需 , 从三个层面进行管控并加速 , 来解开算力桎梏 。

·网络加速 。 云和硬件的结合 , 必须依靠网络 , 管理阿里云全球上百万台服务器并非易事 。 试想一下 , 将不同地区数据中心的算力进行调配传输 , 如果网络不给力 , 必然会导致数据传输慢、计算慢 , 大量实时性要求高的任务如自动驾驶、远程医疗、在线教育等 , 体验就会受到影响 。 传统以CPU为中心的架构可没办法把手伸到网络层 , 而CIPU因为接入飞天云操作系统 , 可以直接通过飞天上的洛神云网络管控物理网络 , 进行硬件加速 , 构建大规模的分布式RDMA高性能网络 , 基础带宽从100G升级至200G , 网络时延从22us降低至16us , 因此AI任务、科学计算等上云之后 , 比自建物理机的集群吞吐量提升了30% , 延迟自然也就大大下降了 。
·存储加速 。 大量云上客户希望充分释放数据价值 , 高吞吐、高并发的数据存算 , 如果存储系统跟不上 , 相当于一台跑车的油箱只有摩托车那么大 , 发动机再强劲也跑不快 。 传统CPU以计算为中心的设计 , 数据搬运中往往会产生“存储墙”和“功耗墙” , 一定程度上影响了并行计算效率 。 同样的 , CIPU与飞天操作系统相结合 , 能够接入存算分离架构的块存储 , 并进行硬件加速 , 让云端存储可以做到比本地存储还快 , 并拥有极大规模的资源池 。 通过全硬件虚拟化和转发加速 , 时延最低可至30us(PLX) , IOPS高达300万 , 存储时延存储带宽可达200 Gbps , 全面超越市面上的云产品 。