服务器|B站自曝去年服务器大崩溃原因 就因为这?

不知道差友们还记不记得,去年的 7 月 13 日,B 站发生了一件大事 。它毫无征兆的崩了 。。。( 如果忘了的小伙伴,可以看 这篇文章 )
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

至于为啥崩了,当时大家谁也心里没个底 。不过吹起水来可是一套一套的,什么停电啊,起火啊,程序员 rm -rf /* 跑路啊 。。。说的是个天马行空 。
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

后来呢,随着 B 站在凌晨两点一顿修仙,把服务器问题给慢慢解决,这件事情也算是告一段落了 。
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

本以为这次 B 站崩了会和微博上无数崩了的网站一样,成为我们冲浪生活中的一个笑谈,仅留下一个大会员给我们 “ 缅怀 ” 。
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

没想到在今年的 7 月 13 日,B 站特意发了一篇文章,刨开心窝子来给我们讲了一讲,那个晚上,到底发生了什么 。
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

咱也看了一下这篇文章,好家伙,让整个 B 站崩溃的原因,竟然只是一行代码没写好???借着这篇文章,世超准备带大家从 B 站的角度来回顾一下这件事情 。放心,不会有生涩难懂的名词,不会有犀利糊涂的黑话,保证小白也能看明白 。   案情回溯:  意外,发生在 2021 年 7 月 13 日的 22 时 52 分 。
负责搞定站点可靠性的工程师(SRE)和B站的客服都收到了大量网站打不开的报警 。
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

而负责处理这些事故的同事已经下班了,当即准备在家里通过 VPN 来登录公司内网处理这些问题 。
结果发现VPN 也崩了 。。。压根进不去系统 。最后,还是在公司的整了个 “ 绿色通道 ” 才成功进去 。你说这绿色通道不会是向日葵吧(一种远程桌面软件)
 ▼
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

而在绿色通道成功打通,负责各种业务的团队就位之后,B 站也开始对问题进行分析定位 。出问题的模块也很明显,在线业务主机房的7层 SLB(负载均衡服务器,用来处理多用户,多业务的情况)的 CPU 跑满了 100% 。
简单来说,就是 CPU 被不知道哪里来的刺客给占用光了算力,没法处理业务了 。
系统未响应.exe ▼
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

B 站最开始的尝试方法呢,和咱们平时手机电脑卡机后做的操作一样 。
重启就完事了,要相信重启能解决 90% 的问题!
服务器|B站自曝去年服务器大崩溃原因 就因为这?
文章图片

但很可惜,B 站这次是那个 10.5% 。
说业务恢复了嘛,也没有,主机房重启后还是出现了CPU 跑满 100%的问题 。不过别的机房好起来了,虽然会卡,但是没出现 CPU 跑满的问题 。