变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生( 二 )


后来这些预案在京东内部被称为“应急剧本”,为业内首创。61页、2万多字,涉及基础设施、登录、支付、安全等多块业务,“应急剧本”可以说是本次春晚红包成功背后的“武功秘籍”之一。它们清楚写出了可能出现的故障、解决方案以及相应的负责人等,几乎将所有可能发生的问题都考虑在内。
据了解,这些剧本有的会涉及应用层面,比如当用户收不到手机验证码导致有些重要功能很难实现时就会被投诉,怎么处理?按照应急剧本,会马上启动和微信、QQ拉通的一键登陆来解决。
变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生
文章插图
但这些应用层面问题并不是最棘手的,最棘手的问题在于基础设施故障。比如CDN被打爆了怎么办?公网出口中断了该如何?这些问题都可能让整个春晚红包互动“翻车”,为此应对网络中断问题,会有一个关键负责人紧急做专线切换操作并在一分钟内生效。“就像《哈利波特》最后一集中女校长谈到的一样,她一生中特别激动的是用一个咒语将整个霍格沃茨的石像鬼复活去抵御伏地魔大军,而这位专线切换的负责人也是类似的角色,一人按键瞬时切换成功。”
此外链路压测是“应急剧本”的一大补充。“在备战过程中,通过多达7轮的压力测试,其中还包括公网压测以及断网演练等,反复练习预案的操作步骤并观察效果,同时还要考察系统上运行的应用的健康度,进而验证剧本是否符合预期效果并不断调整,更好应对突发的业务异常和模块异常等情况。”
所谓“将军不打无准备的仗”,除了“应急剧本”,在春晚红包活动前,技术团队还通过“流量地图”这一独特方式对流量精准预判。根据过往观看春晚并参与活动的多维数据,经分析后提前预判地域流量差异再将资源的针对性部署。“我们还会根据目前掌握的数据分析预判大流量可能出现的环节,并做好对应的资源部署与调整的同时,预判流量流转的路径以及走向,做好把控和引导及时响应资源需求来进行扩缩容,确保‘有限的资源用在刀刃上’。”
变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生
文章插图
19天备战、近万人研发协同、最终达成近600个需求被快速拆分、3000多个任务被有效跟踪、600多个上下游系统的快速交付、数百万核资源的快速扩缩容……“很多年前,我们会去想大规模场景到底怎么去支撑;成功实践了三四年之后,我们的心就沉下来了,感觉像‘618’、‘11.11’这种场景对我们来说也毫无压力。现在碰到春晚这样极具挑战的事儿,感觉又重新激发了我们追求极致的那股干劲儿!”备战团队沈建林向我们讲述。
三、以少胜多、以简驭繁 京东云如何炼就“变形金刚”?实际上京东云面对的并不仅仅是“新战场”,更是一块检验底层云技术的试金石。短短19天的时间内,面对如此复杂的场景要求,通过大规模扩充服务器资源基本是不可能的事儿,这是一场“以少胜多”的技术仗。
在早几年春晚红包互动中,大部分企业还是会选择新增大量服务器的传统方法做相应活动的筹备支持,但今年京东云选择在不增加资源的情况下,仅仅就是通过之前“618”以及“11.11”的资源在内部快速腾挪以及扩容,从而省去额外购置上万台服务器的成本。
“以前大家提到云,往往是像自来水一样堆算力、存储和网络资源,而当下云技术的核心则聚焦在资源于不同场景中的灵活调度。”本次春晚红包互动项目,京东云正是展现出其“变形金刚”般的云资源部署调度能力,能够根据场景不同来快速“变身”,满足不同的任务需求。