小米科技|阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘( 九 )


诊断、自愈规则更加丰富:目前的诊断、自愈规则很多场景下都没有覆盖 , 需要不断优化覆盖 , 更多节点故障场景; 基于节点池的精细化的自愈风控、流控:节点自愈的前提是不能让现状变的更糟 , 所以我们需要在做自愈时 , 做更加精确的判断; 节点自愈能力与上层业务打通:不同业务形态 , 对节点自愈的要求不同 。 比如Flink业务都是任务类型 , 遇到节点问题需要我们尽快驱逐业务 , 触发任务重建 , 最怕的就是任务“半死不活”;中间件/数据库业务都是有状态服务 , 不允许我们随便驱逐业务 , 但是我们如果把自愈能力与上层业务逻辑打通 , 就可以做到将节点故障上透给业务 , 让业务来决策是否要自愈 , 以及业务如何自愈 。 四 未来展望 ASI 作为容器服务 ACK 在阿里巴巴内部持续打磨的统一Serverless基础设施 , 正在持续构建更强大的全自动驾驶 Kubernetes 集群 , 提供集群、节点、组件的全托管能力 , 并一如既往地输出更多经验到整个行业 。 ASI 作为阿里集团、阿里云基础设施底座 , 为越来越多的云产品提供更多专业服务 , 托管底层 Kubernetes 集群 , 屏蔽复杂的 Kubernetes 门槛、透明几乎所有的基础设施复杂度 , 并用专业的产品技术能力兜底稳定性 , 让云产品只需要负责自己的业务 , 专业的平台分工做专业的事 。
作者 | 仔仁、墨封、光南
【小米科技|阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘】本文为阿里云原创内容 , 未经允许不得转载 。