资源|上演计算资源“乾坤大挪移”京东云凭什么打赢春晚红包保卫战?( 二 )


但今年,面对超短的筹备时间,加之上游供应链短缺等原因,京东没有选择增加服务器这一老路,而是尝试在现有的计算资源基础之上,进行高效、灵活的调度配置,以“巧力”替代“蛮力”,直面春晚挑战。
春晚红包背后,京东云上演“乾坤大挪移”2022年元旦期间,一些京东高管接到紧急通知,立刻返回公司开会。在这场高度保密的会议上,许多高管第一次知道,京东准备参与2022年虎年春晚的红包互动项目。
1月5日,央视官宣京东成为虎年春晚红包互动独家合作伙伴。与此同时,一场紧锣密鼓的技术协同备战随即在京东内部启动。
为了支援春晚项目,京东集团技术体系有超3000名技术人员参与了春晚项目的技术攻关与保障工作,除夕当天参与一线值守的技术保障人员近2000人,共有超万名技术人员协同作战。而就春晚项目本身,就有近600个需求被快速拆分,3000多个任务需要有效跟踪, 同时还要保证600多个上下游系统快速交付.. ...因此,这是一场超大规模的研发协同作战。
资源|上演计算资源“乾坤大挪移”京东云凭什么打赢春晚红包保卫战?
文章插图
京东云产品研发部工程师讨论春晚项目
解决了人员的协同,春晚项目最艰难的计算资源调配,才刚刚开始。如何应对史上最具挑战性的春晚互动?在京东云技术团队看来,照搬 “堆砌资源”的传统解题思路是下策,第一,短期临时投入过大,与京东云长期追求的精细化研发资源管理理念相悖。第二,疫情导致的全球供应链紧张,让堆砌资源的客观路径变得行不通。
基于多年来支持京东618、京东11.11的丰富技术经验,京东云决定另辟蹊径,充分发挥云计算高弹性的优势,闯出一条新路。这条新路就是在不增加计算资源的背景下,对现有资源进行云端的灵活敏捷调度腾挪,实现快速变阵。
如何在资源零增加的基础上,保证系统的稳定运行,把用户体验做到极致呢?京东云有两手绝活——云原生数字基础设施和混合多云操作系统云舰,依托云原生数字基础设施和云舰,京东云得以秒级调度近300万个容器、超1000万核算力资源,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。
第一,京东云本身就建立在云原生架构上,运营着全世界最大规模的Docker集群、Kubernetes集群,以及最复杂的Vitess集群之一。全面的云原生化,让京东云可以快速适应不同地域、不同设备的部署环境,实现资源快速灵活平滑扩容,从容平稳地应对大规模复杂流量场景的挑战。
第二,所有容器都跑在京东云的混合多云操作系统云舰上,进行灵活实时的统一资源调度。云舰内嵌的智能调度系统,通过人工智能算法,对应用的资源使用情况进行预测,弹性地对资源进行优化,将算力优先调度给需要高算力的业务中。每一条业务线的日常流量都存在波峰、波谷,而云舰内置的阿基米德平台则可以根据每一项业务的资源需求,动态调节资源量,以实现资源利用效率的最大化。
在春晚期间,这一技术被京东云云舰利用到极致。在主持人口播期间,云舰将绝大多数资源调配至春晚相关应用链路,保障春晚红包项目稳定运行,让用户抢红包不卡顿、不宕机。而在每一轮口播结束,用户则会涌入京东APP的各种业务应用,云舰则在分秒间再一次将计算资源调配至业务应用线路,保障消费购物场景的丝滑体验。
在整个春晚期间,主持人发起了7轮口播,京东云则在后端完成了14次模式切换。加之最初的资源池搭建及春晚结束后的资源池解散,在整个除夕夜,总计完成了16次对计算资源的“乾坤大挪移”,资源调配都在秒级完成。