芯片|阿里云架构变革背后:刺破宁静 激活新增长( 二 )

高密型计算越来越多 , 它们对云计算提出了更高的低时延、高带宽需求 , 传统基于CPU为中心计算体系架构的优化 , 无法满足 。
另一重 , 则是现有云计算平台技术、运营正面临三大挑战 。 即:


1、计算和网络传输时延压力大 。 多年来分布式风潮下 , 一个大型应用分散在多个子系统部署 , 它们之间需高速互联;

2、IDC内部交互流量扩大 , 亟待网络升级;

3、系统规模日益庞大而复杂 , 亟需解决超大规模基础设施的复杂管理与内部超大应用管理问题 。
这该怎么办?
你应该看到 , 上述压力既涉及硬件技术问题 , 也涉及软件层面复杂管理、协同、调度问题 。
说白了 , 就是云计算既要满足超大规模的计算、性能要求 , 又要满足软件定义的灵活性 。 这在过去是一组矛盾 。
要解决它 , 必须一硬一软 , 两者兼顾 。
阿里云CIPU正是软件定义与数据中心硬件资源的新一层 。 它超越了传统CPU为核心的架构 , 一旦接入它 , 计算、存储和网络资源即可被加速、高效云化 , 最大限度地挖掘整体资源效能 。

在此基础上 , CIPU硬件形态与飞天操作系统软件定义优势结合 , 既可高速云化算力资源 , 又能通过飞天实现规模化、灵活高效的管理和调度 。
你可能觉得CIPU似乎并不新 。

外界早有类似的硬件 。 比如亚马逊2017年就开始定义Nitro , 英伟达们定义了DPU , 英特尔则崇尚IPU概念 。 至于各有对标的AMD、Marvell的同类产品不多说 。 各家方案虽有差异 , 但核心基本都是通过将将原基于CPU形成一些功能负载卸载到专用的加速器新硬件 。
但这里面明显有两大派系 。

一是硬件出身的英特尔们 。
英特尔不晚 。 有过FPGA收购 , 也有SmartNIC实践 , 后者旨在提高数据中心网络吞吐量 。 后有别于DPU推出IPU 。 因进一步走出x86 , 一度被视为变革 。 人们注意到 , 最近几年 , 它几乎不谈摩尔定律 。
但这类 , 阿里云早有成熟脉络与运用 。 2017年公布moc卡 , 2018年正式商用 。 作为神龙技术架构核心 。 在行癫那里 , MOC卡是“一个全新里程碑” 。 后来 , 依托它 , 实现规模化RDMA , 替代了专用网络交换机和网卡设备 , 行业普惠效应远大于硬件出身的英特尔们 。 后者其实很难彻底超越X86架构利益思考问题 , 革自己的命很难 。 另外 , 它们的商业化实践 , 多通过传统伙伴尤其惠普、戴尔等硬件企业落地 。
看似相近的硬件层 , 实际软件定义实践上 , 无法与公有云能力深厚的阿里云们相比 。 缺乏云计算各种场景实践与验证 , 本就是硬件巨头们的短板 。
当然 , 我们不是否定硬件一端的创新 。 我们也并不认同那种“CIPU彻底替代CPU”的说法 。
CIPU本就具有高度兼容性 , 连接各种异构计算 。 它有部分计算功能 , 但与飞天结合后的敏捷、灵活的管理、调度、普惠才更核心 。 未来 , 即便CIPU协同平头哥其他资源如自研架构、倚天(ARM架构)、RISK-V等路径替代部分基础设施 , 它与飞天云操作系统结合的体系架构也不可能走向排他 。 当然 , 特定行业与场景是另一回事 。