不知道差友们还记不记得,去年的 7 月 13 日,B 站发生了一件大事 。它毫无征兆的崩了 。。。( 如果忘了的小伙伴,可以看 这篇文章 )
文章图片
至于为啥崩了,当时大家谁也心里没个底 。不过吹起水来可是一套一套的,什么停电啊,起火啊,程序员 rm -rf /* 跑路啊 。。。说的是个天马行空 。
文章图片
后来呢,随着 B 站在凌晨两点一顿修仙,把服务器问题给慢慢解决,这件事情也算是告一段落了 。
文章图片
本以为这次 B 站崩了会和微博上无数崩了的网站一样,成为我们冲浪生活中的一个笑谈,仅留下一个大会员给我们 “ 缅怀 ” 。
文章图片
没想到在今年的 7 月 13 日,B 站特意发了一篇文章,刨开心窝子来给我们讲了一讲,那个晚上,到底发生了什么 。
文章图片
咱也看了一下这篇文章,好家伙,让整个 B 站崩溃的原因,竟然只是一行代码没写好???借着这篇文章,世超准备带大家从 B 站的角度来回顾一下这件事情 。放心,不会有生涩难懂的名词,不会有犀利糊涂的黑话,保证小白也能看明白 。 案情回溯: 意外,发生在 2021 年 7 月 13 日的 22 时 52 分 。
负责搞定站点可靠性的工程师(SRE)和B站的客服都收到了大量网站打不开的报警 。
文章图片
而负责处理这些事故的同事已经下班了,当即准备在家里通过 VPN 来登录公司内网处理这些问题 。
结果发现VPN 也崩了 。。。压根进不去系统 。最后,还是在公司的整了个 “ 绿色通道 ” 才成功进去 。你说这绿色通道不会是向日葵吧(一种远程桌面软件)
▼
文章图片
而在绿色通道成功打通,负责各种业务的团队就位之后,B 站也开始对问题进行分析定位 。出问题的模块也很明显,在线业务主机房的7层 SLB(负载均衡服务器,用来处理多用户,多业务的情况)的 CPU 跑满了 100% 。
简单来说,就是 CPU 被不知道哪里来的刺客给占用光了算力,没法处理业务了 。
系统未响应.exe ▼
文章图片
B 站最开始的尝试方法呢,和咱们平时手机电脑卡机后做的操作一样 。
重启就完事了,要相信重启能解决 90% 的问题!
文章图片
但很可惜,B 站这次是那个 10.5% 。
说业务恢复了嘛,也没有,主机房重启后还是出现了CPU 跑满 100%的问题 。不过别的机房好起来了,虽然会卡,但是没出现 CPU 跑满的问题 。
- 小米科技|华为Mate50系列全系处理器曝光,顶配版采用麒麟9000S处理器
- 伊隆·马斯克|首富马斯克携妻与娱乐大亨豪华游艇度假被曝光!
- iqoo|大反转!一加10又一骁龙8新机曝光有望直接上150W闪充或是标准版
- 酷睿处理器|13代酷睿完整阵容曝光:i5全面升级小核,最快9月底发布
- javascript|华为鸿蒙OS 3.0来了 大量新功能曝光:已兼容安卓12
- 华为mate|让花粉失望了!华为Mate 50超丐版曝光,价格便宜
- 显卡|又一款“十三香”,小米13系列曝光,这外观你觉得香吗?
- 三星Galaxy|三星Galaxy Z Flip4官方渲染图曝光,翻盖折叠,但后摄镜头或将升级
- Ubuntu|HarmonyOS3.0首批升级名单曝光:Mate40全系列支持
- 荣耀play|荣耀Play7T Pro曝光:6100mAh+骁龙芯,真香!