变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生( 三 )


变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生
文章插图
「灵活敏捷,这是“变形金刚”的显著特征」备战团队除了通过“流量地图”精准预测和引导流量来完成资源灵活布局之外,还依靠混合云操作系统云舰实现资源秒级调度,做到最优的集群调度以及一次作业调度,确保全局资源编排和成本最优、系统运行最稳。
其中云舰内嵌的智能调度系统,充分利用了机器学习、深度学习智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化。同时针对本次春晚红包互动还采用了超大规模离在线混部技术,可实现错峰的数据计算功能,实现有限资源的高效率充分利用,让算力发挥最大价值。
值得一提的是,春晚红包互动场景的主要难点在于“红包+消费”叠加带来的全链路复杂度,为此团队制定了分级标准(SABC)达成资源的最优调配,确保在互动过程中高优先级的应用系统尽量多的得到资源使用机会,做到“更少资源办大事儿”。
所以在主持人口播之时,京东云快速将系统资源调整到“春晚互动”模式,资源全面向春晚红包互动涉及的链路倾斜;在口播结束一段时间,抢红包的洪峰退潮之后,再迅速切换为“年货春运”模式,即支撑从前端App平台、订单、结算等到后端仓储、配送等与年货春运相关业务系统。如此互动,京东云控制超大规模计算资源极限变阵,成功实现4小时内16次秒级精准腾挪应对极限双场景,犹如表演“大象走钢丝”。
变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生
文章插图
「稳定有序,这是“变形金刚”的硬核底气」机房断电宕机、硬盘故障、网络连接断开……这些故障对于 “春晚红包互动”这个国民级活动来说简直是”灾难”。除了首创异常演练预案“剧本”为项目提供了稳定有序的支持外,在京东云打磨多年的云原生架构支持下,基于京东体系多年积累的混沌工程能力,京东云沉淀出稳定性主动管理系统云泰,可以对外输出可见、可查、可管、可控的稳定性解决方案,提供稳定性主动测算、故障注入与演练、全链路压测、红蓝对抗和基于“稳定性基线”的评分服务等核心功能,从容平稳地应对大规模复杂流量场景的挑战。
变形金钢|京东云的春晚日记:691亿次红包互动背后,一个“变形金钢”锻造而生
文章插图
「高效协同,这是“变形金刚”背后的超能战队」短于寻常的19天备战时间,数十个部门参与备战,京东如何在组织上保证敏捷协作与快速落地?其实在备战最初,京东已经指定备战总指挥统一协调整个京东横跨零售、科技、物流等多个部门的所有研发团队,召集超3000名技术人员参与了春晚项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员近2000人,总体超万名技术人员协同作战。
而支持这场超大规模作战的,就是多年来积淀而成的京东云一站式研发协同平台“行云”,它覆盖从需求、开发、测试、发布、运维、运营整个生命周期。“从春晚项目立项的那一刻开始,所有核心备战人员就已经通过‘行云’知道了本次项目的战略地位,近万人很快对齐了目标与规划等。”在行云平台支持下,京东研发体系具备了整齐划一、快速作战的能力。
如今的京东云可通过一站式安全、高效生产体系来助力研发进行全链路、全方位的架构升级和精细化资源管理,做到越来越多依靠系统来确保重大节点的稳定,是快速平稳应对特殊业务场景的能力修炼,更是常态化备战的经验积淀。
今年春晚,常亮以及同事们都没能和家人们除夕团聚,守在电视机前一起观看春晚,但他们的心中却有不一样的喜悦。“当老百姓们都打开京东APP参与摇红包时,我们一线人员会非常骄傲自豪,这是大家一起努力得到的成绩。”