阿里巴巴|云计算话语权之争,阿里云祭出自研强招( 二 )



如今13年过去 , 其运营的服务器已超过上百万台 , 建立了覆盖全球的算力基础设施 , 服务400万付费用户 。

期间 , 行业云卷云舒 , 那些前期没有太多技术投入的厂商 , 交完“学费”即遗憾退场 , 验证了拿来主义盖不起高楼大厦 , 自主研发的云才能走得更远 。

从“神龙”计算、“盘古”存储到“洛神”网络 , 阿里云的整套自研技术体系共同融合 , 支撑算力如同水电一般供到千家万户 。

“今天我们可以很自豪地讲 , 阿里云的云计算从端到端 , 核心技术都是自研的 。 ”张建锋说 。


话语权

当下 , 云计算进入一个新的关键突破期 。

随着数据密集型的计算越来越多 , 提升了对云计算提供的低时延、高带宽的需求 , 而这些需求很难通过传统体系结构的优化来满足 。 挑战在于三方面:

其一 , 基于传统的以CPU为中心的计算体系架构 , 出现计算和网络传输时延大的问题;

其二 , 大数据应用持续增多 , 导致数据中心内部数据迁移量增多;

其三 , 管理的基础设施规模越来越大、越来越复杂 。 以阿里云为例 , 其在全球27个国家和地区、84个可用区 , 管理着上百万台服务器 , 传统架构无法解决超大规模的复杂管理问题 。

通过软件定义的方法 , 基于传统的、以CPU为中心的计算体系架构来做优化 , 这套范式已触及瓶颈 。

新旧转换的拐点 , 呼唤全新的技术体系 。 谁能以更具竞争力的产品制定行业规则 , 谁就能掌握下一轮竞争的话语权 。

近年来 , 越来越多云厂商强调软硬结合 , 纷纷自研服务器和芯片 , 即能证明这点 。

阿里云给出的答案是 , 从数据中心的内部体系结构做革新 , 从以CPU为中心的“马车时代” , 向以飞天操作系统+CIPU为中心的“汽车时代”升级 。

早在2015年 , 阿里云相关研发团队就开始技术攻关 , 2017年 , 推出业内首款虚拟化损耗为零的神龙云服务器 。

经过多年自研迭代 , 神龙、弹性RDMA等核心技术不断深入垂直整合 , 以CIPU为中心的全新架构形态 , 开始成型 。

据张建锋介绍 , CIPU是为新型云数据中心设计的专用处理器 , 它向下接入物理的计算、存储、网络资源 , 快速云化并进行硬件加速;向上接入飞天云操作系统 , 管控阿里云全球上百万台服务器 。

CIPU架构示意图

从具体特性来看:

CIPU与计算结合 , 能快速接入不同类型资源的服务器 , 带来算力虚拟化损耗降至“0” , 以及硬件级安全的加固隔离;

与存储结合 , 对存算分离架构的块存储接入进行硬件加速 , 云盘存储IOPS最高可达300万 , 长尾时延降低50%;

与网络结合 , 可对高带宽物理网络进行硬件加速 , 构建大规模弹性RDMA高性能网络 , 时延最低可达5us 。

简而言之 , 物理机一样的性能 , 远超物理机的敏捷性 , 以及云计算的弹性 。

三大特性里 , 尤其值得一提的是网络这块 , CIPU实现了RDMA技术的普惠化 。

阿里云技术产品负责人蒋江伟提到 , RDMA是门“贵族化”的技术 , 对工程师、代码、硬件投入的要求都非常高 , 阿里云基于CIPU+飞天的架构推出弹性RDMA技术 , 能让所有中小企业享受到大企业才能获取的技术红利 。

他们在阿里云上开发几乎不用改代码 , 使用的操作系统是全兼容的 。