资源|京东云有一套高效的调度系统也叫阿基米德

阿基米德曾说过:“给我一个支点,我就能撬起整个地球。”在京东云,阿基米德是一套高效的调度系统,这套系统调度着大规模Docker集群和Kubernetes集群。
京东拥有超过900万SKU的自营商品,京东物流为5.9万家企业客户提供一体化供应链服务,仅2021年京东618期间,累计下单超过3438亿元,窥一斑而见全豹,能够调配如此庞大规模业务背后的系统,其背后的应用数量和复杂程度可想而知。简单的调度分配资源算法已经无法满足复杂的调度需求,阿基米德调度系统应运而生。
目前,阿基米德调度系统已经全面接管京东的应用资源调度,每日调度百万台容器实例运转,服务履约率达到98.3%。2021年京东618,京东云在支撑京东全线业务正常运行下,超大规模集群的CPU资源利用率提升3倍,单位订单资源成本下降30%,内存平均使用率提升57%,交付效率提升150%……
资源|京东云有一套高效的调度系统也叫阿基米德
文章插图

撬动数据中心的支点
在行业首个混合云操作系统京东云云舰中,阿基米德作为核心调度系统,是资源交付的基石,负责整个京东数据中心的资源调度,是撬动整个数据中心的支点。
资源|京东云有一套高效的调度系统也叫阿基米德
文章插图

京东的电商场景中,购物车、订单、详情等,涉及到的每一台容器分布,包括容器编排、单机计算资源、内存资源,均由阿基米德分配和调度,特别是618、11.11的超大流量场景下,少数容器编排错误都有可能给业务带来致命影响,调度器需负责把控峰值时每一台容器计算的质量,其重要性可想而知。
经历京东体系复杂场景的多年磨练,阿基米德可实现最优的集群全局调度、最优的一次作业调度,不仅能确保全局资源编排和成本最优、资源运行最稳定,还能在集群内选择最合适的宿主机,以最佳的资源使用、最少的相互干扰(如 CPU 分布、IO 争抢),来运行提交的计算作业。
五大技术支撑,成就领先调度能力
1、基于预测的智能调度
阿基米德在核心功能——调度方面,利用机器学习、深度学习智能算法,对应用的资源使用情况进行画像统计,并对应用的未来资源使用情况进行预测,以对应用进行合理部署,实现资源的优化调度。
具体来看,阿基米德采用强化机器学习算法,可根据应用的历史数据,提取其资源使用的特征,进而将不同的应用进行归类,形成应用画像。综合应用标签和批处理任务的描述,对未来一段时间的任务调度进行提前规划,使得业务能够正常运行的同时,资源得到充分的利用,有效防止了批处理任务与长期服务的资源竞争。
【 资源|京东云有一套高效的调度系统也叫阿基米德】阿基米德的智能调度可以成倍提升资源利用率成倍提升,极大降低企业采购成本,以今年618为例,阿基米德调度实现CPU利用率3倍的提升。
2、精准驱逐与碎片整理
资源碎片在几乎每台服务器上都有发生,不同批次采购的服务器规格性能不同,服务器上的CPU或者内存配额没有同时分配完,就会出现资源碎片。
同时在长期服务中,特别是面向用户的任务,会出现明显的高峰低谷,而且不同长期服务的资源消耗也不同,因此集群中的时空资源利用率不均是常态。
针对资源碎片和时空分布不均问题造成的资源浪费,阿基米德采用批处理任务进行统一填充式调度,完成资源碎片的充分利用、资源的时空复用,保障长期服务稳定存在,以及低频度迁移。同时阿基米德会时刻保持一定的资源储备,应对突发流量的资源需求。
3、调度器仿真系统及回放