SRE这个概念,最早定义是“用软件工程的方法从事运维活动”。在华为云这里还要更精细一点,诞生出了“确定性”的方法论,来达成“高可用”的目标。
一言以蔽之,就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量。
SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化、自动化。具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现、故障定位和修复的时间。
如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能。
文章插图
在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率。
具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估。
在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收。
文章插图
同时,还会借助云操作系统和全域调度等技术,高效“压榨”并分配有限的流量资源,包括采用“瑶光”智慧云脑,负责整个云的资源分配、部署、调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等。
目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内。
数字世界的春节保卫战事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人。
其中整个SRE团队几百人,更是一直处于“全员在线”的备战状态。
某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人。
只不过维度从线下的物理世界转变到了线上的数字世界。
在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年。
文章插图
△华为云SRE专家张智
以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹。现在我在数字世界上,也可以跟朋友一起过春节、抢红包、刷视频。
见证过不少同行灾难发生的他,认为这份值守不可或缺:
你不知道风险什么时候会发生。但SRE可以真正降低遇到风险的可能性。
从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:
文章插图
△华为云SRE专家石胜兵
SRE算是华为云背后的角色。我们其实很少在像春节这样的节日中“露面”,因为真出现的时候,往往都“不是一些好事”。
但这份工作却让他感受到“新的春天”:
【 攻击|华为云春节前夕遭连续偷袭!密谋3个月,专挑凌晨断网】我在华为工作了二十年,来这个团队一年半。原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来。
一方面体现在SRE本身,它是华为云最年轻的团队。
另一方面,随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量。
其实这种对数字生活的保障,也并非孤例。
- 华为荣耀|售价近万却好评如潮,荣耀折叠屏真的香吗?看看评论怎么说
- OPPO|华为“继承者”出现?两大国产手机合并后,已经火到了国外
- spring|仅4999元,256GB+105万跑分+2K屏+哈苏三摄,体验不输华为P50
- 春节焕新!《战地风云2042》展望虎年新赛季
- 华为|雪上加霜!合作被停后,阿里云又遭“审查”
- 虎年春节百度热搜大数据:十大云上过年方式出炉,网购年货排第一
- 驻美大使馆|不惧美国力挺华为,阿联酋选对了
- 车企|大将相继离职,华为选错了路?
- 员工|腾讯员工怒怼管理层「表彰过度加班」,高管回应;周鸿祎称360不会裁员;华为原智能驾驶总裁苏箐离职|雷峰早报
- 三星Galaxy|华为最成功机型盘点,麒麟芯片见证国产旗舰崛起