阿里巴巴|阿里云 CIPU,是一场「原生」的冒险( 二 )


国际数据公司 (IDC) 一项数据显示 , 全球数据量在过去 10 年年均复合增长率接近 50% , 并进一步预测每四个月对于算力的需求就会翻一倍 。 这就意味着 , 随着摩尔定律的失效 , CPU 的性能会到达天花板 , 数据量增长后的处理需求可能难以为继 。
此外 , 企业在大数据、 AI 等数据密集型计算的应用场景下越来越多 。 阿里云基础产品首席架构师黄瑞瑞也强调:「我们发现现在云上有很多的核心应用 , 实际上是数据密集型的应用 。 在服务这么多客户以后 , 我们发现客户对我们的诉求是逐步从业务逻辑为中心 , 转向了以数据处理为中心 。 」
这其实都在不断地提高了对云计算提供的低时延、高带宽的要求 。 在阿里云看来 , 以 CPU 为中心的计算体系架构已经很难适应 , 面临着很大的挑战:以 CPU 为中心的架构数据吞吐小 , 计算和网络传输的时延大 , 也无法解决超大规模的复杂管理问题;大数据应用增多 , 导致数据中心内部数据迁移量增多 , 以 CPU 为中心的架构无法提供高带宽 。
是时候需要去改变了 。
阿里云的思路 , 其实就是从数据中心的内部体系结构里做了体系化创新 , 将过去以 CPU 为中心的体系架构 , 变成了以云操作系统+CIPU 为中心的体系架构 。

图|阿里云 CIPU 架构示意图

在这里面 , 飞天云操作系统是跑在 CIPU 上 , 从而可以获得更好的管理能力 。 黄瑞瑞进一步补充:「我们希望上百万台服务器整体纳管、整体编排、整体调度起来 , 变成一台超级计算机 。 这个本身也是『飞天+CIPU』想要达到的目标」 。
换句话来说 , 「飞天+CIPU」其实是云计算数据中心体系架构的变革 , 而 CIPU 更像是一个大数据中心、大云计算的控制器 , 支撑云操作系统更高效地做云资源的管理和加速 。

02 CIPU 会更有机会吗?
CIPU 当然不是唯一 。 围绕数据中心的计算 , 在芯片和软件上已经出现了一系列的创新 , 甚至还产生了不同技术的演进方向 。
比如 NVIDIA 公司 2020 年发布的 DPU(Data Processing Unit) , 它定位在数据中心里继 CPU 和 GPU 之后的「第三颗主力芯片」 。 在功能上 , DPU 作为计算卸载的引擎 , 直接效果是给 CPU「减负」 。 之后在 DPU 方向 , 涌现了一批的创业公司 。 而英特尔依据数据吞吐类应用快速增长的趋势 , 在 2021 年推出了 IPU(Infrastructure Processing Units) , 融合了与云厂商合作的经验 , 试图去 CPU 提高数据密集型场景的能力 。
在阿里云看来 , IPU 代表的虚拟化云化能力 , 和 DPU 代表的数据搬迁带宽能力 , 很难融合 , 只有云厂商能真正做到 , 并且规模落地 , 而 CIPU 能够突破以上两者瓶颈 。
在和阿里云内部的交流中 , 我感受到他们的很强的自信 , 因为一旦掌握了产业 Know-How , 就有机会去定义未来 。 阿里云基础产品负责人蒋江伟也强调 , 「我们 CIPU 最大的不一样 , 其实是用我们顶层定义的飞天云操作系统 , 垂直根据业务驱动往下定义了芯片 。 」
应用设计领域 , 最近流行着一种云原生 (CloudNative) 理念 , 其目标是探寻云应用设计的最佳实践路径 , 以充分发挥云的效能 。 在云原生浪潮之下 , 以往的关注视角 , 都是从基础设施向上看 , 聚焦在 PaaS、SaaS 以及应用侧 。 但应该还有一种视角 , 是往下看 , 比如数据密集型计算的上层需求 , 也在推动硬件侧「原生化」 。 云原生应该同时包含软件和硬件的概念 。
实际上 , 在「CIPU+飞天」的组合中 , 阿里云是先把云操作系统做得非常成熟 。 通过对于飞天的定义和迭代 , 实现了对于客户需求的清晰化的感知 。 在此之后 , 才去做 CIPU 。 为云而生的 CIPU , 与底层基础设施进行深度定制 , 可以更精准垂直去解决云操作系统的管理问题 。 在某种程度上来讲 , 在这个过程中 , 其实是完成了对于 CPU 的云原生化 。