邬贺铨提出算力十大思考,建言从实战中学习创新

近日 , 2022中国算力大会在济南开幕 , 在以“算力筑基高质量发展”为主题的主论坛上 , 中国工程院院士邬贺铨发表《对数据中心“数学”与“算术”的思考》的主题演讲,提出了对算力的十大思考 。 邬贺铨解释“数学”即研究数据的科学,“算术”即研究算力的技术 。
邬贺铨提出算力十大思考,建言从实战中学习创新
文章图片
以算为主还是以存为主?
邬贺铨表示 , AI应用驱动算力需求快速增长 。 基于GPU/NPU/FPGA等构建的AI智算中心适于训练数据导出模型 。
训练出数学模型后 , 深度神经网络的使用并不需要调度非常多的参数 , 降低了对算力的需求 。 基于CPU的通用算力的IDC适于在已知数学模型下的计算任务 。
邬贺铨指出 , 是否可以认为AI智算中心主要任务是算 , IDC主要任务是存?
邬贺铨提出算力十大思考,建言从实战中学习创新
文章图片
三类算力如何合理比例?
目前算力可以分为基础算力(基于CPU芯片)、智能算力(基于GPU和NPU芯片)和超算算力(基于超算) 。
从2021年全球算力分布来看 , 美国占31% , 中国占27% , 其次是日本、德国、英国等其他国家 。 美国的基础算力占全球35% , 智能算力占15% , 超算占30% , 而中国这三类分别为27%、26%和20% 。
邬贺铨表示 , 可以看到美国以基础算力为主 , 中国智能算力的能力远远超过美国 。 中国的超算和AI智能中心是以政府为主 , 基础算力以运营商和互联网企业为主 , 美国则主要是互联网企业为主 。
冷数据与热数据
IDC数据显示 , 人类历史上90%的数据都是在过去几年间产生的 , 50%在短短两年内生成的 , 预测到2025年数据量年均将以30%增长 , 即两年增70% 。
一般来说 , 最近产生的是热数据 , 经历一周或数月后将转为温或冷数据 , 冷、温、热数据分别占累计数据总量约80%、15%和5% 。
冷数据主要是存储 , 计算需求非常态 。 东西部分别适合处理热和冷数据 , 东数西算实际上是东数西存 。
存算分离与存内计算
存算分离架构在控制单元指令下从存储器读数据并交到CPU计算 , 得到的结果还需送回存储器 。 但对冷数据I/O往复并不频繁 , 因此更适用于冷数据处理 , 例如云平台建模 , 边缘计算训练与仿真 。 另外 , 存算分离可采用开放存储体系和磁带存储介质 , 存储器可同时服务多服务器 , 池化存储支持多云 , 高利用率 , 降成本与能耗 。
不过 , 热数据需快速计算 , 但受限于存算分离I/O瓶颈 , 且CPU能力受累于存储器访问速度难以发挥 , 更需要存内计算 。 存内技术以RAM代硬盘 , 在RAM内完成所有运算 , 例如自动驾驶可以在车内同时完成存与算 , 但目前实现复杂和成本高 。
邬贺铨表示 , 虽然西部以处理冷数据为主 , 但也需要处理当地的热数据 , 冷热数据是否需要分别采用不同的存算架构?
封闭系统存储与开放系统存储
服务器一般由CPU和内存组成 , 如果将存储也放在一起 , 则称为封闭存储系统 , 但是容量有限 。 因此 , 大多数情况下是将存储和服务器分离 , 即开放系统存储 , 实现存储容量为多服务器共享 , 以池化方式支持多云应用 。 不同存储架构适应不同任务 , 可按照任务来软件定义存储 。
PUE与IT能效
PUE是数据中心能耗占IT系统能耗之比 , 反映了制冷系统的水平 , 但并非衡量IT系统的能效 。 据统计在IDC的IT系统的能耗中 , 服务器约占50% , 存储系统约占35% , 网络通信设备约占15% 。
数据中心需要7*24小时工作 , 但通常并非7*24小时都在计算 , 非计算状态下也耗能 , 此时存储系统的能耗成为主体 。 据麦肯锡报告:大部分电能用于维持服务器状态 , 仅6-12%用于计算 。