hbo|亚马逊解释了周二大规模 AWS 中断的原因

hbo|亚马逊解释了周二大规模 AWS 中断的原因
文章插图
【 hbo|亚马逊解释了周二大规模 AWS 中断的原因】亚马逊发布了一份事后摘要,以阐明本周 AWS 大规模停运的根本原因,该停运导致一长串知名网站和在线服务停运,包括 Ring、Netflix、Amazon Prime Video 和 Roku。

停电大约在美国东部时间周二上午 10:30 开始。它影响了 US-EAST-1 AWS 区域,该区域确保了美国东北部的人员和公司的连通性。

结果,据报告无法连接到相机的用户称,通过 Netflix、Amazon Prime 和 Roku 进行的流媒体立即与 Ring 设备一起受到影响,出现故障且无法访问。

大约在同一时间,亚马逊送货员工开始在 Reddit 上分享他们无法再访问扫描包裹、访问送货路线或查看即将到来的时间表所需的内部应用程序。

“在太平洋标准时间上午 7 点 30 分,一项用于扩展托管在主 AWS 网络中的一项 AWS 服务的容量的自动化活动触发了内部网络内大量客户端的意外行为,”亚马逊在此事件的摘要中解释道.

“这导致连接活动大量激增,使内部网络和 AWS 主网络之间的网络设备不堪重负,导致这些网络之间的通信延迟。

“这些延迟增加了这些网络之间服务通信的延迟和错误,导致更多的连接尝试和重试。这导致连接两个网络的设备出现持续拥塞和性能问题。”

我们的支持联络中心还依赖于内部 AWS 网络,因此创建支持案例的能力在太平洋标准时间上午 7:33 至下午 2:25 期间受到影响。我们希望在明年初发布新版本的 Service Health Dashboard,这将使我们更容易理解服务影响,以及一个跨多个 AWS 区域积极运行的新支持系统架构,以确保我们与客户的沟通不会出现延迟。-亚马逊

周二的 AWS 中断绝对不是独一无二的,因为它发生在 2011 年以来发生的多起其他类似事件,包括 2020 年 11 月影响同一地区的大规模事件。

当它发生时,在亚马逊用于实时处理流数据的 Kinesis 服务开始出现问题后,它还导致大量站点和在线平台瘫痪。

一年前,也就是 2019 年 9 月,位于北弗吉尼亚州的 AWS US-EAST-1 数据中心发生停电,导致所有缺乏工作备份来恢复文件的亚马逊客户的数据丢失。

2017 年 2 月,亚马逊的 S3(简单存储服务)中断导致数百万小型和知名网站和在线平台瘫痪,包括 Adobe 的应用程序和服务、Docker、Mailchimp、Medium、Signal、Slack、Trello、Twilio、IFTTT 和抽搐。

#科技日报#
举报/反馈