dns|Facebook 大宕机:远程工作的一曲悲歌

dns|Facebook 大宕机:远程工作的一曲悲歌
文章插图
本文来自微信公众号:航通社(ID:lifeissohappy),作者:书航,题图来自视觉中国

“微博崩了”“知乎崩了”“小红书崩了”我们都经历过。你能想象“微信崩了”是什么场景吗?

2021 年 1 月 18 日下午,曾有诸多网友反映微信群聊、私信等收不到消息。“微信 bug”一度冲上热搜。腾讯微信团队回应:

“由于系统抖动原因,今天14点左右,部分微信用户遇到了消息收取延迟情况,现在已经修复完成。”

这次“系统抖动”影响的人数确实相对较少,而历史上,微信也只有朋友圈、红包等部分功能模块偶尔出现“崩了”的情况,相对来说算是“稳如泰山”。

但是,在刚刚过去的 10 月 4 日,除中国大陆以外的全球网友是切切实实体会到了一次什么叫他们的“微信”崩了。有着 35 亿活跃用户的 Facebook 全线业务,一度在全球范围无法访问长达 6 小时。

这些服务包含 Facebook 及其相关服务 Instagram、WhatsApp、Messenger、Oculus 等;以及其企业级产品,甚至 Facebook 的公司内网。其中,WhatsApp 和 Facebook Messenger 是公司旗下两款“微信”类即时通信产品,分别在全球范围拥有 20 亿用户和 13 亿用户(有重叠),都高于微信(含海外 WeChat)的 12.4 亿用户和 QQ 的 6.06 亿用户。

【 dns|Facebook 大宕机:远程工作的一曲悲歌】这次史无前例的故障,其起因本身就是 Facebook 在疫情后不得不开展大量远程工作,导致检修员工不在现场,让事故持续拖延下去。而其结果,是让全球不计其数的中小企业乃至政府部门的远程工作受到严重影响,造成一波又一波的次生灾害。

世纪新冠疫情让人们不得不留在家中,依赖互联网完成大部分工作和人际交往,原本临时的远程办公措施逐渐常态化和永久化,也让人们憧憬新生活方式的可能。但只需要一次简单的服务中断,这一切就都有可能被打回原点。长达 6 小时的 Facebook 大宕机,正是让我们重新反思这一切的绝佳时机。

发生了什么?

根据目前能掌握的信息,这次 Facebook 的大规模故障应该是从一次例行维护开始的。

Facebook 主管基础设施的副总裁贾纳丹(Santosh Janardhan)说,他们在维护过程中发出的一条命令,无意中关闭了通往世界上所有 Facebook 数据中心的骨干网连接。

围绕此事,主要有两个不同的阴谋论。

  • 一是此事正好赶在有位“吹哨人”就 Facebook 及 Instagram“无视儿童安全”上美国国会听证会的前夕,6 个小时也许够用来“毁尸灭迹”;

  • 另一说是有 15 亿份近期的 Facebook 用户个人资料流出,有人说黑市每 100 万个用户资料开价 5000 美元。6 个小时同样也许可以用来补救或者掩盖什么。

目前来看,因为“吹哨人”而自导自演宕机的可能性小到几乎为 0。官方一再解释,此次宕机并不是黑客攻击导致,也没有证据显示有用户数据是因此事而泄露。

不过,“如无必要,勿增实体”。这起事件是一次单纯的误操作所致,也许是一种更简单也更靠谱的解释。

除 Facebook 官方之外,负责第三方公共 DNS 解析和 CDN 服务的 CloudFlare 也在官方博客分析,从外部观察,就是 Facebook 的 BGP(边界网关协议)出的问题。

通俗的说,DNS 是互联网的“地图”,用来告诉你“x 在什么地方”;而 BGP 是这一“地图”的“导航”部分,告诉你“怎么走去 x 最快”。

要准确理解这一概念,首先要明白一点:

我们现在所称的“互联网”,字面意思是“网际(inter-)网络(net)”,也就是“网络的网络”,是无数张小网络如“岛屿”般彼此连接的后果。这些小网络可能是“中国电信”、“清华大学”或者“x 公司北京办事处”。