中国如何赢得新一轮超算竞赛？关键在向数据密集型超算转变( 三 ) 梦晨明敏发自凹非寺量子位报

先不提达到人类水平这么远的事，按照现在最受认可的SAE自动驾驶分级标准，达到L3级别也要2000万公里路测历程，对应的数据体量达到1-2EB 。
自动驾驶行业还有一个难点是不同环节要求的数据协议不同。
数据导入时需要的是S3/NFS格式，数据预处理需要HDFS格式， AI训练又需要NFS格式，后面还有仿真、模型验证….
结果是，数据转换格式和来回拷贝的时间比处理分析时间还多一倍，这要求未来的数据密集型超算还要解决数据协议互通的问题。 ‘

文章图片
从微观的分子化合物、神经细胞到中观的车辆、道路，再把视角拉大，研究宏观的地球、宇宙同样需要数据密集型超算。
能源勘探、气象预测、卫星遥感、天文观测的数据储存规模也在几十到几百PB ，根据各自的特点还分别对超算的传输速度、是否需要AI接口、数据管理等问题提出不同的要求。
数据密集型超算该怎么建才能适应尽可能多的应用场景要求，就成了关键问题。
数据密集型超算该怎么建？
诚然，超算在基因测序、自动驾驶、脑科学等场景上已展现出巨大潜力。
各个大国都想抢先于人去挖掘这块新土壤，由此也就产生了当下超算竞争日趋白热化的局面。
面对这样的形势，我们如何做才能抢占先机呢?
由中国计算机学会高性能计算专业委员会、国内各高校和超算中心、华为联合编写的《数据密集型超算技术白皮书》已经给出了一些切实可行的建议。
《白皮书》认为，想要打赢这场算力上的“军备赛” ，眼下我们应当从超算架构、网络传输、能耗等方面入手。