阿里巴巴|首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

阿里巴巴|首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

文章图片

阿里巴巴|首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务

01 背景 统一调度项目 1.0 成功支持 2021 年双 11 大促 , 统一调度方案实现了从容器调度到快上快下全流程的全面升级和优化 。 项目组 100 多位核心成员 , 成功走过了立项、POC、方案评审设计、封闭开发测试、大促冲刺各个阶段 , 历经考验成功上线 。
作为阿里巴巴的核心项目 , 阿里云(容器团队和大数据团队)联合阿里巴巴资源效能团队、蚂蚁容器编排团队 , 历时一年多研发和技术攻坚 , 实现了从“混部技术”到今天“统一调度技术”的全面升级 。
今天 , 统一调度已实现阿里巴巴电商、搜推广、MaxCompute 大数据和蚂蚁业务的调度全面统一 , 实现了 pod 调度和 task 高性能调度的统一 , 实现了完整的资源视图统一和调度协同 , 实现了多种复杂业务形态的混部和利用率提升 , 全面支撑了全球数十个数据中心、数百万容器、数千万核的大规模资源调度 。
云原生产品家族
02 统一调度技术全面升级 云计算的本质 , 就是把小的计算碎片变成更大的资源池 , 充分削峰填谷 , 提供极致的能效比 。 对数据中心低碳节能、绿色环保、科技发展、更高效运转的追求下 , 阿里巴巴对技术的探索永无止境 。 阿里的技术人有一个理想 , 让数据中心的算力成为水、电、气一样的基础设施 , 开箱即用 。
为了让业务间峰谷互补的优势发挥到最大 , 过去我们构建了混部技术 , 打破多资源池的割裂 , 不同计算领域的多调度大脑协同共用资源;老一代的混部技术带来了资源的统一和利用率的巨大提升 , 但多调度器的本质让我们的追求受限 。
阿里巴巴持续追求构建可支撑更多复杂任务无差别混部、极致弹性互补、领先的新一代调度技术 , 实现极致的全局最优调度 , 提供更高质量的算力 。 今年我们在技术上到达一个新的临界点 , 容器服务 ACK 牵头并协同众多团队 , 启动了基于 ACK 的新一代统一调度项目 。
容器产品家族
今年双 11 首次规模化亮相的统一调度 , 通过一套调度协议、一套系统架构 , 统一管理底层的计算、存储、网络资源 , 超大规模、高效率、自动化的资源弹性 , 实现了业界新的突破 。 在离线混部、离在线混部、新的快上快下技术 , 减少数万台服务器采购 , 带来数亿计的资源成本优化和大促效率提升 。
今年首次引入大规模数据智能来进一步丰富调度能力 , 提供了包括实时的负载感知 , 自动规格推荐(VPA) , 差异化 SLO 工作负载编排 , CPU 归一化 , 支持周期性预测的 HPA , 分时复用等 , 提供了更多维度的成本优化技术和高可靠的容器运行时保障 。
围绕着新一代的统一调度 , 阿里巴巴电商、搜索、大数据等众多平台、不同类型的复杂计算资源都以一致的方式申请资源 , 统筹的额度管理和资源规划 , 数十万核资源借用秒级即可完成 。 基于统一调度 , 阿里云与蚂蚁也实现了调度技术融合 , 蚂蚁生态全面升级为统一调度 。 调度平台为未来带来更多想象空间 , 例如 , 我们可以通过众多手段 , 例如价格杠杆等经济因素 , 驱动阿里内部的业务更合理使用各个数据中心的资源 , 确保数据中心全局资源水位尽可能平衡 , 以改进数据中心的能效比 。
阿里云容器服务 ACK 对标准 Kubernetes 进一步增强 , 更高性能吞吐和更低的响应延迟构建稳定可靠的超大规模单集群能力 , 平稳支撑了 1.2 万节点超 100 万核的超大规模集群、为统一调度大资源池化的生产运行提供了坚实的基座 。 阿里巴巴众多类型的复杂资源也实现了基于容器服务底座 ACK 的全面融合升级 。