Facebook|Facebook 宕机背后,我们该如何及时发现DNS问题( 二 )


Facebook 此次宕机持续近 7 小时影响了约 8500 万用户 , 是自 2008 年以来最严重的一次 。 作为旁观者回顾这次故障 , 我们会发现一个非常关键的问题点:但据了解 , 当日不断有用户反映 , Facebook 旗下 Facebook、移动聊天服务 Messenger 和 WhatsApp、图片社交服务 Instagram 等四大社交平台网站和应用均发生响应服务器错误 , 导致无法刷新 。 Facebook 在欧洲、美洲、大洋洲几乎完全下线 , 在亚洲的日本、韩国、印度等国也无法访问 , 影响到全球数十个国家和地区用户 。 似乎 Facebook 似乎并没有在第一时间发现这些问题 。 只在全球多个国家和地区用户进行反馈后才发现了问题 。
即使是庞大如 Facebook 这样的企业 , 也没有在第一时间发现 DNS 故障 , 并遭受严重的经济损失 。 设身处地的面对这样故障 , 我们该如何第一时间发现并监控产品以及 DNS 的运行状况?并且及时了解全球不同国家和地区的用户使用情况?
纵观各类 APM 产品 , 无侵入的云拨测成为最佳的解决方案 。 阿里云拨测通过遍布全球的 1000+ 监测点 , 包括真实用户监测 , 全天候 24 小时对目标域名发起网络请求 , 帮助用户监测 DNS 服务对可用性和解析性能 , 同时 DNS 拨测支持指定递归、迭代不同查询方式以及解析服务器 , 通过灵活的拨测参数配置尽可能模拟真实用户的访问 。

经过定时的拨测任务 , 阿里云拨测可以生成不同地区的 DNS 解析用时的报表 , 同时针对每次拨测都清晰的列出 DNS 请求对详情 , 包括 A 地址、DNS 用时、DNS 解析过程等 , 能给帮助用户快速分析和定位 DNS 解析的问题 。
另外通过配置 DNS 告警 , 针对于 DNS 的可用性问题和解析性能问题 , 也可以先于用户感知并问问题的修复争取时间 , 提高用户的满意度 , 降低经济损失 。

【Facebook|Facebook 宕机背后,我们该如何及时发现DNS问题】本文为阿里云原创内容 , 未经允许不得转载 。