信通院发布首份《中国混沌工程调查报告》,京东云成典型案例

2021年11月,中国信通院发布国内首个《中国混沌工程调查报告》,基于混沌工程业界现状,探索并提升国内云业务系统稳定性 。作为对外输出混沌工程能力的先行者,京东云加入信通院成立的国内首个混沌工程实验室,参与混沌工程标准编写,并贡献了混沌工程的最佳实践 。
今年首次开启“晚8点”模式的京东11.11,迎来持续脉冲式流量高峰,对系统在持续高压环境下的稳定性有极高要求 。借助领先的混沌工程能力,京东云不仅以超高弹性应对海量并发,保障流量高峰的平稳顺滑,还推进技术备战常态化、自动化,减少25%的备战时间和人力投入 。
搞破坏,混沌工程的稳定之道
“系统越复杂,越脆弱” 。企业在数字化转型中拥抱云计算、大数据、AI等新技术的同时,容易出现系统架构复杂度拉升、调用链增长、依赖关系复杂等问题 。混沌工程被认为是检验、增强系统稳定性的不二选择 。
混沌工程为揭示系统缺陷而进行破坏性试实验,提前探知系统风险,通过架构优化和运维模式改进来解决系统风险,真正建立系统的韧性架构,降低企业损失 。
在混沌工程的理论中,将正常的系统数据假设为“稳定状态”,参照真实环境的多类型事件注入故障,如服务器崩溃、硬盘故障、网络连接断开等,并直接面向生产环境的实际流量进行破坏性实验 。通过“稳定状态”的变化来反驳假设,发现并修复问题 。
在实施过程中破坏系统稳定状态的难度越大,即可对系统稳定性树立更强的信心 。一旦发现缺陷,就能定向优化改进,避免在系统规模化后缺陷被放大 。
不同于业界熟知的故障注入测试,混沌工程不仅制造故障来测试系统反馈,还基于不可预知性模拟各类异常场景,进行生产上各层次的流量切换演练 。
信通院发布首份《中国混沌工程调查报告》,京东云成典型案例
文章图片

自从 NETFlix 开源 Chaos Monkey,混沌工程在全球多家顶级科技企业的实践,充分验证其在稳定性领域的作用 。伴随云服务逐渐成为基础设施,稳定性被不断强调,混沌工程正在凭借“搞破坏”的工程理念成为云服务的稳定之道 。
助力企业引入混沌工程,京东云推出稳定性主动管理系统云泰
“平时多演练、战时少挨枪” 。京东云在多年的京东618、京东11.11磨练中,成为混沌工程的领先实践者和受益者,从单业务场景故障到整机房断电宕机…..京东云完美通过各类超「变态」场景考验 。
基于京东体系多年积累的混沌工程能力,京东云沉淀出稳定性主动管理系统——云泰,对外输出可见、可查、可管、可控的稳定性解决方案,提供稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗和基于“稳定性基线”的评分服务等核心功能 。
通过稳态监控功能,云泰可保持对核心资源、服务的数据观测,支持完成主动测算系统稳定性,从实时和周期性完成健康度、异常趋势及SLI可用性测算,到实时感知突发事件和异常事件,快速定位系统故障等日常需求,云泰系统都全面覆盖 。
【信通院发布首份《中国混沌工程调查报告》,京东云成典型案例】信通院发布首份《中国混沌工程调查报告》,京东云成典型案例
文章图片

同时云泰系统的故障注入与演练功能,支持引入指定的演练对象后,在演练大厅选择故障类型、编排演练场景,定时执行故障演练,并通过对关联业务、基础资源等对象“稳定状态”的实时监控,快速完成故障定位,检验系统的稳定性能 。
相比手动演练易出现操作故障、不可重复执行、无历史记录等问题,云泰的演练平台不仅设有种类丰富的故障,可高效完成场景编排,还能自动、定时、重复执行,并结合实时监控、实时定位和完善的历史记录帮助全面探索系统稳定性 。