供应链|4小时实现16次资源精准腾挪 京东云成功护航红包互动的背后( 二 )


对此2022春晚项目IDC基础保障负责人、京东云基础设施研发部高级总监,负责京东云基础设施研发部高级总监常亮表示:“为了应对本次春晚互动,我们并没有单独准备额外的资源,一方面因为短期临时投入过大,与京东云长期追求的精细化研发资源管理理念相悖;另一方面由于疫情导致的全球供应链紧张,让增加资源的客观路径变得行不通。所以仅仅就是通过之前‘618’以及‘11.11’的资源,通过内部快速腾挪以及扩容,做到秒级调度近300万个容器、超1000万核算力资源在春晚互动以及年货春运两种模式中迅速切换,虽然困难很大但我们成功了。”
供应链|4小时实现16次资源精准腾挪 京东云成功护航红包互动的背后
文章插图
除夕值守的京东云技术人员进行春晚前的工作部署
从拆借资源满足复杂需求过渡到提升系统架构的高效敏捷能力做到快速变阵来应对纷繁挑战,尤其是锻造提升大规模场景极端并发下的能力,在某种程度上代表着云厂商技术能力的持续性创新,这一次京东云借助春晚舞台可谓身体力行。
从资源优化的角度深挖下去,我们知道,本次春晚红包互动的难点就在于“红包+消费”叠加带来的全链路复杂性,“如此高并发的流量下,过去在大促环节中使用的双活架构在应对挑战时显然后力不足,所以很重要的就是通过业务评估完成系统分级来达成资源的最优化调配。”基于此,项目筹备团队早早预想到并制定了分级标准(SABC)来完成资源的动态调整与更新。例如在春晚互动环节中,红包互动链路系统就为S级,反之其他则会酌情降级,这样一来就可确保在互动过程中高优先级的应用系统尽量多得到资源使用机会,做到“更少资源办大事儿”。
当然在敏捷灵活的资源应对提升上,本次春晚红包互动项目照例亮出了京东云“当家王牌”,即强大的混合多云操作系统云舰。得益于京东云从内而发的云原生技术稳定支持,通过发挥其针对大规模异构基础设施的敏捷调度以及资源灵活平滑扩容等能力,确保全局资源编排和成本最优、系统运行最稳。尤其是内嵌其中的智能调度系统,利用了机器学习、深度学习智能算法,对应用资源使用情况进行预测来完成弹性优化;同时,超大规模离在线混部技术也在本次技术筹备中为化解长周期脉冲式流量洪峰实现了有限资源的充分利用,原来三台机器能解决的问题,这次只要一台就搞定了,让算力发挥出最大价值。
谈及将“人算”做到极致来迎接“天算”的考验,这次备战项目团队也颇有心得。为了做到灵活敏捷的响应,团队在活动前就对可能发生的流量分布进行了预测。例如根据过往观看春晚并参与活动的多维数据,率先绘制了“流量地图”来提前预判地域流量差异,并进行资源的针对性部署。
关于预测,春晚项目T-PaaS及中间件负责人张金柱做了一个形象生动的比喻:“如果将这次红包互动项目看作是让数以亿计的观众快速进入到某个场馆来观看比赛的话,中间件其实相当于场馆的各个通道。我们需要配合资源调度系统快速、合理地打开这些通道,承接涌入的人流,保证大家有序、可控地进入到自己的座位观看比赛,其实就是确保大家能够顺利参与到红包互动中来。对此我们会根据目前掌握的数据分析预判大流量可能出现的环节,并做好对应的资源部署与调整的同时,预判流量流转的路径以及走向,做好把控和引导及时响应资源需求来进行扩缩容,确保‘有限的资源用在刀刃上’以及快就一个字。”
春晚互动以及保障方案的快速落地,除了在很大程度上体现了京东云积木化IT思维,更是多年来应对自身6.18和11.11的常态化备战经验。这次针对可能出现的意外情况,京东云首创“应急剧本”作为异常演练预案。“在备战过程中,通过多达7轮的压力测试,其中还包括公网压测以及断网演练等,反复练习预案的操作步骤并观察效果,同时还要考察系统上运行的应用的健康度,进而验证是否符合预期效果并不断调整,更好应对突发的业务异常和模块异常等情况,为互动保驾护航。”重保人员总结道。