事实上,这已经不是传统意义上的运维团队了 。
无论是日常排除风险故障、维持系统稳定的红军,还是春节值守的“特战队”,都来自华为云内部一只“训练有素”的团队——SRE 。
SRE这个概念,最早定义是“用软件工程的方法从事运维活动” 。在华为云这里还要更精细一点,诞生出了“确定性”的方法论,来达成“高可用”的目标 。
一言以蔽之,就是在设计产品时就考虑高可用的架构、并将风险控制做到动态清零、再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量 。
SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化、自动化 。具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现、故障定位和修复的时间 。
如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能 。
在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率 。
具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估 。
在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收 。
同时,还会借助云操作系统和全域调度等技术,高效“压榨”并分配有限的流量资源,包括采用“瑶光”智慧云脑,负责整个云的资源分配、部署、调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等 。
目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内 。
数字世界的春节保卫战
事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人 。
其中整个SRE团队几百人,更是一直处于“全员在线”的备战状态 。
某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人 。
只不过维度从线下的物理世界转变到了线上的数字世界 。
在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年 。
以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹 。现在我在数字世界上,也可以跟朋友一起过春节、抢红包、刷视频 。
见证过不少同行灾难发生的他,认为这份值守不可或缺:
你不知道风险什么时候会发生 。但SRE可以真正降低遇到风险的可能性 。
从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:
SRE算是华为云背后的角色 。我们其实很少在像春节这样的节日中“露面”,因为真出现的时候,往往都“不是一些好事” 。
但这份工作却让他感受到“新的春天”:
我在华为工作了二十年,来这个团队一年半 。原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来 。
一方面体现在SRE本身,它是华为云最年轻的团队 。
另一方面,随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量 。
其实这种对数字生活的保障,也并非孤例 。
平时出行的电子公交卡、一键打车,吃饭时的数字支付、生病时的在线预约,再到网购和线上游戏聚会,回想起来我们已经离不开数字化的生活 。
- 奥林匹克|北京冬奥会将基于阿里云向全球转播,4K内容超6000小时
- 国产化|易捷行云王瑞琳:开源上升到国家战略高度,信创向行业纵深发展|探路2022
- 艺术品|三十而立?马云、马化腾等富豪,30岁的时候“立”了吗?
- 科技|众人行远,浅谈亚马逊云科技的合作伙伴建设计划
- 本文转自:和讯网三重玩法呈现全链路整合营销新模版。|打破春节营销套路?奥利奥虎年营销新打法
- 阿里云|北京冬奥会将通过阿里云向全球转播
- delete|「北亚数据恢复」云服务器表被truncate,数据被delete的数据恢复
- 大数据|华为Cyberverse地图技术,堪称导航界百科全书,路痴的救星
- 华为荣耀|华为万象双环被荣耀用在千元机上5000mAh+22.5W充电受老年人喜爱
- 春节留岗|全国总工会慰问春节留岗美团骑手 美团外卖七天向骑手补贴5.5亿元