经过两年多的发展 , ASI体系下组件变更也完全统一在一个平台下 , 并且基于云原生的能力也建设出了非常完善的灰度能力:
3 节点全托管运维能力
前面我也介绍了 , 我们在建设系统能力时不会重复造轮子 , 但是也不能完全依赖其他产品的能力 。 ACK提供了节点生命周期管理的基本产品能力 , 而ASI作为ACK之上的Serverless平台 , 需要在ACK基本产品能力之上 , 建设规模化运维能力 。 从Sigma时代到ASI支持集团超大统一调度集群过程中 , ASI沉淀了非常多规模化运维节点的能力和经验 。 接下来介绍一下我们在售卖区如何建设节点全托管能力建设起来 。
节点全生命周期定义
要建设比较完善的节点全托管运维能力 , 我们首先要梳理清楚节点全生命周期的每一个阶段需要做哪些事情 , 如下图我们将节点全生命周期大致分为5个阶段:
节点生产前:售卖区比较复杂的场景是每一个云产品都有一套或多套资源账号 , 还有很多需要自定义ECS镜像 。 这些都需要在新业务接入时进行详细定义; 节点导入时:集群节点导入时需要建设节点创建/扩容/导入/下线等操作; 节点运行时:节点运行时往往是问题最多的阶段 , 这块也是需要重点能力建设的阶段 , 如节点组件升级、批量执行脚本能力、cve漏洞修复 , 节点巡检、自愈能力等等; 节点下线时:在节点成本优化、内核cve漏洞修复等场景下 , 都会需要节点腾挪、下线等规模化节点运维能力; 节点故障时:在节点故障时 , 我们需要有节点问题快速探测能力、问题诊断能力和节点自愈能力等 。
节点能力建设大图
ASI售卖区节点托管能力建设1年多 , 已经承载了售卖区所有上ASI的云产品 , 并且大部分核心能力都已经建设比较完善 , 节点自愈能力我们也在不断优化完善中 。
节点弹性
在云上一个最大的特点就是资源弹性 , 节点弹性能力也是售卖区ASI给云产品用户提供的一个非常重要的能力 。 ASI的节点弹性能力依靠ECS资源的极致弹性 , 能按照分钟级来进行ECS资源购买和释放 , 帮忙云产品精细化控制资源成本 。 视频云云产品目前就在ASI上重度依赖ASI节点弹性能力 , 进行资源成本控制 。 视频云平均一天节点弹性3000多次 , 并且经过不断优化 , ASI节点弹性能达到几分钟内完全拉起视频云业务 。
在节点弹性上 , 我们在节点整个生命周期中都进行了性能优化:
管控层面:通过控制并发度 , 可以快速完成几百台ECS的弹性任务处理; 组件部署优化:daemonset组件全部修改为走Region vpc内部地址拉取;rpm组件采用ECS镜像内预装模式 , 并进行节点组件部署序编排来提升节点组件安装速度;最后就是yum源带宽优化 , 从原来走共享带宽转为独占带宽模式 , 避免被其他rpm下载任务影响我们节点初始化 。业务初始化:引入dadi镜像预热技术 , 节点导入过程中可以快速预热业务镜像 , 目前能达到10g大小镜像的业务拉起只需要3min左右 。4 1-5-10 能力建设
ASI全托管模式的服务 , 最重要的还是我们能为云产品用户进行底层集群稳定性问题进行兜底 。 这个对ASI的1-5-10能力要求就非常高 , 接下来主要给大家介绍3个核心稳定性能力:
风控:在任何场景下 , ASI都应该具备踩刹车的能力; KubeProbe:快速探测集群核心链路稳定性问题; 自愈:庞大的节点规模 , 非常依赖节点自愈能力 。风控
在任何时刻 , ASI一定要有“踩刹车”的能力 , 不管是我们自己同学误操作 , 还是上层业务方误操作 , 系统必须有及时止损的能力 。 在文章开头 , 我也介绍了ASI曾经发生过的大规模重启、误删pod的事故 。 正因为之前血泪教训 , 才造就了我们很多风控能力的诞生 。
- 小米科技|不聊性能只谈拍照!新旗舰反向升级成潮流,拍照手机如何选?
- 华为|别不信!魅族如今处境,雷军早有预料,小米也早已体验
- 小米科技|预算只有两三千买这三款,颜值性能卓越,没有超高预算的用户看看
- CPU|元宇宙+高端制造+人工智能!公司已投高科技超100亿,股价仅3元
- 小米科技|RTX3060的性能到底如何?相比RTX2060提升有多大?
- 蓝思科技|苹果与34家中国供应商断绝合作,央视呼吁:尽快摆脱对苹果依赖
- 小米 11 Ultra 内测 NFC“读写勿扰”与“解锁后使用”功能
- 一加科技|16+1TB,一加10T秀肌肉,顶级4nm+5100mAh+80W
- 飞利浦·斯塔克|最便宜的小米 12 来了,2000 块左右
- 小米科技|从4999跌至2889元,2K曲面屏+IP68防水,小米老款旗舰售价大跳水