普惠|新基建硬核基础设施,解读“5A”级智算中心( 二 )


普惠|新基建硬核基础设施,解读“5A”级智算中心
文章插图
曙光“5A级”智算基础设施
曙光不断强调的“5A级”智算基础设施,具体包括开放、融合、绿色、普惠、服务五个方面的能力。
开放是以生态包容的模式,构建智算中心多元集成的基础架构;融合是以搭载多种类型的芯片,提供多元的算力;绿色是运用先进的相变式全浸没液冷技术,将能耗降低达30%;普惠是通过多种策略,将综合建设成本降到低于市场既有价格30%;服务是提供全生命周期的智算基础设施服务,从建到运营,持续服务。
1、开放:以多元协作为宗旨,追求产业链共建
目前,智算中心面临的首要问题就是开放性问题,AI应用的数量增加和迭代速度对智算中心的生命力提出挑战。
作为新型基础设施,智算中心不能只解决像材料或者基因等某一领域的问题。
同时,智算中心建设还要避免这种情况:花巨资建好智算中心后,比如说一两年之后,随着迭代,智算中心的功能就大幅衰减。
业界关于智算中心建设的思路有两种,一种是垂直一体化整合模式,每一层都是建设者独立实现的,这样的优点是避免了不同技术路线之间的适配过程。
第二种做法是多元协作模式,这种做法适配上就可能稍微难一点,但是对开发者来说会更加友好,对产业发展来讲更加有利。
曙光坚持的就是多元协作模式,任京暘谈道,曙光建设“5A级”智算基础设施,就是通过芯片、算法、框架、模型的全面开放、兼容,构建多元集成的基础架构,实现算力底座最大程度的易用性,降低迁移成本,给未来的开发者带来一个比较好的环境,进而通过建设智算中心带动整个产业链的健康发展。
2、融合:通过分布式异构并行体系结构,实现多样性算力供应
随着AI技术的不断发展和各行业对于智能化、数字化转型的认识和需要的提升,从产业横向角度上看,AI赋能的领域越来越多,从智慧城市,到工业制造,再到农业生产、科学计算等等;从产业纵向角度来看,AI应用正逐步在垂直领域进行纵深发展,解决行业内部的关键问题。
AI应用多样,对算力的需求同样多样,既有应用需要高精度的算力,也有应用需要低精度的算力,混合精度、多元算力成为智算基础设施发展的必然趋势。
曙光“5A级”智算基础设施通过分布式异构并行体系结构,搭载多种类型的芯片,可以覆盖全算力精度,进而实现多样化算力供应,满足不同AI应用场景和多种用户的需求。
3、绿色:采用相变式全浸没液冷技术,实测PUE值可达1.04
除了AI应用在增加,AI模型参数、智算中心的算力体量也都在逐年上升。
尤其是大模型越来越多的现在,以GTP-3为例,相关数据显示,如果将GPT-3的全部程序运行一遍,该模型产生的碳排放量相当于一辆汽车行驶70万公里,大概是从地球到月球的2倍距离。
在双碳目标下,智算中心的节能减排形式相当严峻。
曙光“5A级”智算基础设施采取多种方式降低智算中心的能耗,其中液冷技术是杀手锏。
PUE(电能使用效率值)值是评价智算中心、数据中心碳排放的重要指标。未来,1.5数值以上的数据中心或智算中心要被逐步淘汰。
曙光通过清洁能源以及芯片、设备、平台节能等多层次技术创新,构建绿色低碳的“5A级”智算基础设施。
并且,基于曙光创新的浸没式相变液冷技术,智算中心的PUE值实测可达1.04到1.05。
普惠|新基建硬核基础设施,解读“5A”级智算中心
文章插图
曙光还在研究余热再利用等技术,希望将数据中心的PUE值降到更低。