超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌( 三 )


此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化 。
除了GPU之外,构建如此大规模算力也少不了异构计算 。
飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度 。
据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优 。
那么,这种“打磨”的能力从何而来?
源于阿里多年的业务实践 。
拿淘宝来说,商品搜索、智能客服、千人千面的个性化推荐等,平均每天需要处理10亿张图像、120万小时视频、55万小时语音和5000亿句自然语言 。
每逢618、双11大促,更是要面对峰值负载的考验,多年来已沉淀出适应实际需求的技术体系和最佳工程实践 。
在AI开发层,阿里云还有两个杀手锏:PAI-EPL和PAI-Blade 。
前者能够支撑万亿级参数的大模型训练,提供了包括数据并行、模型并行、流水并行在内的丰富的分布式训练能力 。
在内部测试中,PAI-EPL只用了512张 GPU就完成了M6万亿模型的训练,大幅降低了超大模型训练的成本,将训练效率提升了11倍以上 。
PAI-Blade则为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,尽量避免用户改模型代码,可将推理效率提升6倍以上,极大地方便用户使用 。
这些综合技术整合到一起,就成了飞天智算平台软硬一体能力的来源 。
超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌
文章图片

除了智算中心自身软硬件之外,其上运行的算法和智能服务也是飞天智算平台中的重要能力 。
全链路AI开发工具与大数据服务,包括阿里云大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎实现架构统一 。
如此一来,可适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等多种场景 。最多可提升AI训练效率11倍,推理效率6倍 。
另外说到智能算法也别忘了达摩院 。据介绍,达摩院开源的M6大模型从诞生之初就与飞天智算平台一起生长,相互配合起来更能发挥出彼此的实力 。
最后,绿色低碳也是飞天智算中心的优势之一 。
对于大型算力中心来说,衡量绿色化程度的一个重要指标是能源利用效率(PUE, Power Usage Effectiveness) 。
根据《2021年中国数据中心市场报告》,2021年全国数据中心平均PUE为1.49,华北地区平均约为1.40 。
这意味着IT设备每消耗1度电,就有额外的0.9度电用于散热、供配电系统本身的消耗、照明等其他用途 。
而张北智算中心采用了行业独有的单相浸没式液冷解决方案,将服务器泡在特殊冷却液里,PUE最低可以达到1.09,行业领先 。
超算|“全球最强智算”王座 刚刚易主:阿里一举击败谷歌
文章图片

△图:阿里云浸没式液冷服务器
此外,AI调温和模块化设计等都起到了关键作用 。
不仅如此,智算中心选址在张北还可以利用起当地充足的光伏和风电资源,做到100%使用清洁能源 。
不过为了克服光伏和风力发电不稳定的问题,也需要更强大的供配电技术来保障 。
如何评价全球智算王座易主?
纵向看时间 。
两年前,阿里首次公开自研AI集群细节,那篇论文还被计算机体系结构顶级会议HPCA 2020收录 。