攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网( 二 )


SRE这个概念,最早定义是“用软件工程的方法从事运维活动”。在华为云这里还要更精细一点,诞生出了“确定性”的方法论,来达成“高可用”的目标。
一言以蔽之,就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量。
SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化、自动化。具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现、故障定位和修复的时间。
如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能。
攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网
文章插图
在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率。
具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估。
在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收。
攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网
文章插图
同时,还会借助云操作系统和全域调度等技术,高效“压榨”并分配有限的流量资源,包括采用“瑶光”智慧云脑,负责整个云的资源分配、部署、调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等。
目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内。
数字世界的春节保卫战事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人。
其中整个SRE团队几百人,更是一直处于“全员在线”的备战状态。
某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人。
只不过维度从线下的物理世界转变到了线上的数字世界。
在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年。
攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网
文章插图
△华为云SRE专家张智
以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹。现在我在数字世界上,也可以跟朋友一起过春节、抢红包、刷视频。
见证过不少同行灾难发生的他,认为这份值守不可或缺:
你不知道风险什么时候会发生。但SRE可以真正降低遇到风险的可能性。
从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:
攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网
文章插图
△华为云SRE专家石胜兵
SRE算是华为云背后的角色。我们其实很少在像春节这样的节日中“露面”,因为真出现的时候,往往都“不是一些好事”。
但这份工作却让他感受到“新的春天”:
【 攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网】我在华为工作了二十年,来这个团队一年半。原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来。
一方面体现在SRE本身,它是华为云最年轻的团队。
另一方面,随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量。
其实这种对数字生活的保障,也并非孤例。