李冬|西安一码通“崩溃”调查:一场系统性失灵的数字政府再思考|钛媒体深度( 四 )


其次,对疫情态势发展的预估也影响到系统建设。2020年初,社会普遍认为新冠疫情是一次突发事件,并没有意识到事态会长期持续,自然也不会在一个“临时系统”上花费重金。相比之下,微信、支付宝的健康码则是多年来持续迭代、不断优化,才有了良好的体验。
“健康码是非常典型的阶段性突击任务,还是按照传统的建设方式去管理和推动的。初期确实很正常,但存在着面对大并发场景下的问题隐患。”浪潮软件副总经理张峰对钛媒体App表示。
而当相关方重视程度不够时,健康码作为一种需要持续资金投入的数字基础设施,不可能凭空完成系统架构的改进。“就好比平时是一匹马拉一辆车的货,当货变多的时候,要么换一匹更厉害的马,要么加更多的马。但只是换匹马的话,再厉害也不会增加太多的马力,更合理的做法是增加更多马。从技术上说,前者是垂直扩展,后者为水平扩展,互联网公司大多使用可水平扩展的分布式架构。”张峰举例。
然而,尽管分布式架构有诸多好处,但是其所需要的启动成本和时间也远多于单体式架构,对资源的消耗和技术的要求也更高,由单体式架构向分布式机构的重塑也并不容易,所以很多系统都是在原有架构上修修补补,这也是为什么西安“一码通”不能在短时间内实现水平扩展,一个月内连续两次出现故障的原因。
“如果是架构的问题,那么架构的改动是不能简单用‘优化’来概括的,这是个大工程,虽然不是从零开始,也等于重整。”李冬的分析也印证了张峰的判断。
综合来看,西安“一码通”全套系统的本质问题在于预设前提突变,远远超出系统设计的基础标准,系统架构改造也不足以应对大规模防控场景,从而导致系统中的各个环节危如累卵,最终汇集到防火墙处,造成连续“失码”。
数字政府再思考回溯西安一码通连续两次崩溃事件,有一点已经很明确,这不仅仅是技术问题。
12月20日,西安“一码通”第一次发生崩溃,在当日举行的西安疫情防控采访人员会上,彼时西安市大数据局局长刘军表示,当日早7时40分左右,西安“一码通”用户访问量激增,每秒访问量达到以往峰值的10倍以上,造成网络拥塞,致使包括“一码通”在内的部分应用系统无法正常使用。
1月4日,西安“一码通”第二次崩溃,时间点也很“巧合”——一位西安市民告诉钛媒体App,1月4日是西安市社会面清零的时间点,西安全市“拿出最佳状态发起总攻,攻坚拔寨推进社会面清零”。在这一目标下,当天大批市民需要核酸检测,而无论是核酸检测还是外出都要亮码。“一是疫情严重,上班点都要亮码;二是短时间内全员核酸,大批转移、大量亮码导致流量激增。哪怕是分批呢?”在重压之下,“一码通”又一次扛不住了。
钛媒体App联系另一位在西安定居多年的市民了解到,第一次故障发生时,西安除了基本处于正常运转状态,部分行业尚未歇业,日常进出各类场所需要亮码,所以“一码通”故障影响可能较大;但第二次故障时,西安各方都在努力实现社会面清零,大部分行业仍居家办公,只有特殊人员或需要做核酸人员在外活动,“当天听到社区大喇叭通知,说‘一码通’故障了,希望大家等系统好了再出门做核酸。但有些居民可能刚好在故障时正在排队,这些居民可能受到影响。”该市民表示。
然而,在“健康码”类应用已经在全国各省市普及的情况下,西安“一码通”短期内两次崩溃,引起了各界广泛关注。1月5日,西安大数据资源管理局党组书记、局长刘军也因履职不力,被停职检查。