混沌演练实践(一)( 二 )

混沌演练实践(一)
文章图片
2.3恢复阶段
故障发现及排查定位:演练进行中 , 蓝方事先不知道演练哪些故障场景(目前是通过预发演练 , 研发侧能明确受影响的机器) , 蓝方通过收到报警 , 对报警信息进行排查 , 摹略引擎系统针对报警信息做出反应和应急处理 。
蓝方发现故障CPU使用率负载故障 , 报警机器与演练机器相同 , 重启服务后 , 应用服务器响应正常 , 可用率恢复;
混沌演练实践(一)
文章图片
混沌演练实践(一)
文章图片
2.4复盘阶段
通过本次演练 , 发现两个待优化的点:
1.CPU使用负载的演练场景 , 发现了监控告警邮件延迟 , 建议增加电话和咚咚报警策略;模拟JSF接口响应超时场景 , 发现缺少失败阈值告警邮件 , 增加相应告警邮件;
混沌演练实践(一)
文章图片
三、混沌演练总结
1.典型演练场景
借助于平台进行混沌演练 , 可以降低演练的学习成本 , 提高演练的效率 , 目前平台对于常用的演练场景已经支持 , 大家可以在平台进入工具市场选择相应的演练场景 。
混沌演练实践(一)
文章图片
2.重要考核指标
混沌演练结束后 , 需要根据演练执行过程和结果 , 记录演练流程和对应监控指标变化情况 , 总结存在的问题以及优化方案发出演练报告 , 对于演练中的关注指标主要是从故障“发现-定位-恢复”的时效性指标 , 下面具体介绍了在实践演练中需要重点关注的指标 , 如是否有告警监控、系统容错能力情况 , 以及响应机制 , 其中最后灰色部分高可用指标属于探索部分 , 会随着系统当前的实际情况和业务不同有变化 , 作为探索性指标 。
混沌演练实践(一)
文章图片
3.关注风险控制
混沌演练会对业务和系统产生破坏性 , 为了限制发现应用程序漏洞的成本 , 避免不必要的损坏和超出合理测试允许的实际损失对混沌演练做好风险控制是非常必要的 。 做好风险控制 , 将演练控制在一个较小的范围内 , 避免由于演练失控带来的更大问题 。 目前在进行混沌演练实践主要通过以下两个方面进行风险控制:
混沌演练实践(一)
文章图片
尽管混沌演练的好处是显而易见的 , 但它是一种应该慎重进行的实践 。 返回搜狐 , 查看更多
责任编辑: