此外,还需要分布式并行计算框架、混合精度、数据通信的优化、I/O的优化等,都需要在业务实践中反复打磨、相互配合才能做到极致的优化 。
除了GPU之外,构建如此大规模算力也少不了异构计算 。
飞天智算平台适配多种芯片架构,支持X86、ARM、GPU、NPU等多种处理器混合部署和统一调度 。
据灵骏产品研发负责人曹政透露,为了支持国产化芯片的生态发展,在云服务的领域他们甚至做到了比厂商更好的性能调优 。
那么,这种“打磨”的能力从何而来?
源于阿里多年的业务实践 。
拿淘宝来说,商品搜索、智能客服、千人千面的个性化推荐等,平均每天需要处理10亿张图像、120万小时视频、55万小时语音和5000亿句自然语言 。
每逢618、双11大促,更是要面对峰值负载的考验,多年来已沉淀出适应实际需求的技术体系和最佳工程实践 。
在AI开发层,阿里云还有两个杀手锏:PAI-EPL和PAI-Blade 。
前者能够支撑万亿级参数的大模型训练,提供了包括数据并行、模型并行、流水并行在内的丰富的分布式训练能力 。
在内部测试中,PAI-EPL只用了512张 GPU就完成了M6万亿模型的训练,大幅降低了超大模型训练的成本,将训练效率提升了11倍以上 。
PAI-Blade则为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,尽量避免用户改模型代码,可将推理效率提升6倍以上,极大地方便用户使用 。
这些综合技术整合到一起,就成了飞天智算平台软硬一体能力的来源 。
文章图片
除了智算中心自身软硬件之外,其上运行的算法和智能服务也是飞天智算平台中的重要能力 。
全链路AI开发工具与大数据服务,包括阿里云大数据+AI一体化产品体系,集合了机器学习平台PAI、大数据开发与治理平台DataWorks、MaxCompute、Hologres、Flink等计算引擎实现架构统一 。
如此一来,可适用于多种AI场景的计算和开发需求,包括科学研究、精准医学、气象预报、数字孪生、自动驾驶等多种场景 。最多可提升AI训练效率11倍,推理效率6倍 。
另外说到智能算法也别忘了达摩院 。据介绍,达摩院开源的M6大模型从诞生之初就与飞天智算平台一起生长,相互配合起来更能发挥出彼此的实力 。
最后,绿色低碳也是飞天智算中心的优势之一 。
对于大型算力中心来说,衡量绿色化程度的一个重要指标是能源利用效率(PUE, Power Usage Effectiveness) 。
根据《2021年中国数据中心市场报告》,2021年全国数据中心平均PUE为1.49,华北地区平均约为1.40 。
这意味着IT设备每消耗1度电,就有额外的0.9度电用于散热、供配电系统本身的消耗、照明等其他用途 。
而张北智算中心采用了行业独有的单相浸没式液冷解决方案,将服务器泡在特殊冷却液里,PUE最低可以达到1.09,行业领先 。
文章图片
△图:阿里云浸没式液冷服务器
此外,AI调温和模块化设计等都起到了关键作用 。
不仅如此,智算中心选址在张北还可以利用起当地充足的光伏和风电资源,做到100%使用清洁能源 。
不过为了克服光伏和风力发电不稳定的问题,也需要更强大的供配电技术来保障 。
如何评价全球智算王座易主?
纵向看时间 。
两年前,阿里首次公开自研AI集群细节,那篇论文还被计算机体系结构顶级会议HPCA 2020收录 。
- “认养模式”遭质疑 认养一头牛创始人徐晓波回应
- 本文转自:央视网央视网消息:随着我国“县县通5G、村村通宽带”|数字科技“点亮”乡村 数字技术逐渐深入到乡镇生活方方面面
- 本文转自:北青网原标题:“青创北京”火花青年科学思想会热议芯片发展近日|“青创北京”火花青年科学思想会热议芯片发展
- 本文转自:大众日报8月29日|“自贸烟台跨境全球购”正式启用,打造跨境消费新场景
- 本文转自:环球网【环球网无人机 记者 赵汗青】美国Axios网站8月29日称|“不受地形限制!”扫雷无人机在乌克兰协助探测地雷
- 成都独角兽企业增至9家,跻身“全球前30名创业城市”
- 长沙|深夜偷看“不良网站”,以为删除记录就没事?3个后果已悄悄产生
- 苹果公司|2419亿罚款!这一次,库克还“扛得住”吗?
- 苹果|告别信号盲区?iPhone14又爆“黑科技”,苹果将再次领先安卓?
- 华为|美突然“变卦”,美企被“坑”,拆不动了?