中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变( 二 )


中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变】从现实世界镜像到数字世界的数据将会爆发式增长 , 甚至可以说未来智能产业的运转速率取决于数据分析的速率 。
随产业数字化带来的 , 是数据构成上的变化 。 根据IDC预测 , 到2025年80%的数据将是非结构化数据 。
非结构化数据很好理解 , 像分散在互联网上的文章、文档、图片、音频视频等 , 只要不是用行和列组成的二维表结构表达的都算非结构化数据 。
中科院院士陈国良认为 , 如果说数据是数字世界的新石油 , 那么非结构化数据更难处理 , 就像石油中最难开采的页岩油 。
处理庞杂的非结构化数据就需要新技术 , 这种新技术叫做面向海量数据的高性能数据分析(HPDA , HighPerfermanceDataAnalytics) 。
简单来说 , 实现HPDA需要把超算、AI算法、大数据三者结合起来 。
这样的超算也可以称为数据密集型超算 , 也就是用超算的并行处理能力运行强大的AI算法 , 从海量数据中提取出价值 。
根据全球高性能计算市场研究机构HyperionResearch预测 , 未来数据密集型超算市场份额会数倍于传统超算的增长速率 。
到2024年 , 高性能计算市场更是将有超过40%来自数据密集型超算 。
这也让人不免期待 , 未来我们会在哪些场景中看到数据密集型超算的身影呢?
数据密集型超算用在哪?
这个问题其实应该反过来看 , 正是应用场景对算力需求的变化驱动着超算朝数据密集化方向发展 。
一台超算从规划到建设再到投入使用需要好几年 , 所以最初就要面向未来可能的应用来设计 。
比如生物医药领域 , 今年发生的一件大事是DeepMind开源了全新的蛋白质结构预测模型AlphaFold2 , 并把人类98.5%的蛋白质结构全都被预测了一遍 。
而在这之前科学家们数十年的努力 , 只覆盖了人类蛋白质序列中17%的氨基酸残基 。
在基因测序上 , 最早的人类基因组计划耗资30亿美元历时13年终于在2003年完成 。
到如今面向个人消费者的全基因组测序服务只需要几小时 , 价格也降至100美元 。
这让2007年仅为800万美元的全球基因测序市场规模 , 有望在2021年达到350亿美元 。
这两个方向上的进展为加速新药研发提供了基础 , 再往后发展就需要将蛋白质结构数据、基因图谱数据结合上AI分析的文献、临床档案等非结构化数据进行化合物筛选、发掘药物靶点 。
正需要高精度科学计算算力和精度需求不高但数据量庞大的AI推理、训练的算力相结合 , 才能真正做到缩短新药研发周期 , 降低药物研发成本 。
中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章图片
再比如脑科学领域 , 对神经系统的研究除了医学上的作用 , 也是对大脑认知原理的探索 , 对类脑人工智能技术和相关器件的研发也有启示意义 。
脑科学研究对传统超算系统提出的最直接挑战就是数据规模庞大 。
人脑大约有1000亿个神经元 , 把神经元之间的映射全存成数据 , 需要的容量要达到EB级(一EB等于一百万TB) 。
在这么大规模数据上做检索响应时间高达100小时 , 如果脑科学想取得突破性进展 , 也需要未来超算在数据存储架构上完成突破 。
中国如何赢得新一轮超算竞赛?关键在向数据密集型超算转变
文章图片
同样需要处理EB级数据的是时下火热的自动驾驶行业 。
根据美国兰德公司的研究 , 自动驾驶算法想要达到人类司机水平至少需要累计177亿公里的驾驶数据来完善算法 。
如果配置一支100辆自动驾驶测试车的车队 , 每天24小时不停歇路测 , 平均时速40公里来计算,需要500多年的时间才能完成目标里程 。