超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌( 二 )


北京大学化学与分子工程学院便利用阿里云的智能算力,将靶向药研究数据集计算效率提升了100倍 。
此前算法依赖的是单机式算力,受限于软硬件的限制,往往系统整体性能偏低,无法满足快速增长的算力需求 。而通过集群进行并行计算,能让算力规模不再成为掣肘 。
超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌
文章图片

不过有一说一,算力这个东西,其实通过自行购买GPU搭建集群的方式便可以获取,而且此前行业内普遍的做法也是如此 。
那么为什么诸多领域现在都开始时兴采用智算中心了呢?
这是因为近年来,不论是自动驾驶、元宇宙,亦或是生命科学天文学,各类科研和产业应用的发展,都越发具备数智驱动的趋势,这种情况下算的更快往往就是核心优势,算力成为了绝对的生产力 。
基于如此现状,智能计算可以提供更加多元化的算力服务,逐渐成为了主流选择 。
但智能计算不同于通用型计算,需要海量数据对AI模型进行训练,算力往往在模型参数更新、数据迁移等环节被消耗,千卡以上规模仅有40%的有效算力输出,甚至出现计算卡越多,总体性能越差的情况 。
这便导致了规模化的算力的获取困难,不仅硬件成本昂贵,而且还需要专业的技术从系统架构、软件等方面进行深度重构和优化,自建智算中心,成本和时间便成为了最大的敌人 。
以自动驾驶为例,复杂路况下的复杂决策能力,包括识别红绿灯、路口、行车车辆等等,其实已经进入L3-L4级范围 。
按照如此迭代速度,未来3-5年,自动驾驶研发很快会进入较为成熟的L4级甚至是L5级,迭代所需算力规模也会快速上升到只有“智算中心”才能满足 。
算力需求的指数级膨胀,造成目前自动驾驶玩家的“算力”焦虑越来越严重 。
因此,当下自动驾驶对于智算中心的需求,其实是为保持持续的技术领先优势做储备 。
而飞天智算中心便在拿下全球第一速度之外,还规避了诸多传统高性能计算固有的疑难杂症 。
为了解开这些疑难,阿里连顶会最佳论文都没少拿 。
“全球最强”背后的一套功法
秘密就藏在背后的飞天智算平台:
一个可以持续进化的智能算力系统 。
超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌
文章图片

换句话说,做智算中心不能仅考虑基础设施和硬件,也要考虑其上运行的软件平台、算法和服务 。
这其中最重要的是做到软硬一体,通过“打磨”让软件和硬件在一个平台中真正相互融合 。
首先,要做到单集群12EFLOPS的算力峰值,仅靠单块芯片无法完成,就需要考虑并行效率的问题 。
如果在一台普通电脑里装两张相同的游戏显卡,大概只能获得75%的性能,也就是花了两份钱只享受到一份半的效果 。
类似的问题在智算中心也存在,而且更严重 。因为要用到上千张GPU做并行计算,算力输出最低往往仅有40%左右 。花一千份的钱,只享受四百份的效果,亏大了 。
那么在飞天智算平台,千卡并行的效率可以做到多少呢?
90% 。
要做到这一点,最关键的就是减少非计算部分的开销——上图里的阿里云灵骏智能计算就是干这事的 。
超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌
文章图片

△采用浸没式液冷的灵骏智能计算,Pue低至1.09