邬贺铨提出算力十大思考，建言从实战中学习创新近日

近日， 2022中国算力大会在济南开幕，在以“算力筑基高质量发展”为主题的主论坛上，中国工程院院士邬贺铨发表《对数据中心“数学”与“算术”的思考》的主题演讲,提出了对算力的十大思考。邬贺铨解释“数学”即研究数据的科学,“算术”即研究算力的技术。

文章图片
以算为主还是以存为主？
邬贺铨表示， AI应用驱动算力需求快速增长。基于GPU/NPU/FPGA等构建的AI智算中心适于训练数据导出模型。
训练出数学模型后，深度神经网络的使用并不需要调度非常多的参数，降低了对算力的需求。基于CPU的通用算力的IDC适于在已知数学模型下的计算任务。
邬贺铨指出，是否可以认为AI智算中心主要任务是算， IDC主要任务是存？

文章图片
三类算力如何合理比例？
目前算力可以分为基础算力（基于CPU芯片）、智能算力（基于GPU和NPU芯片）和超算算力（基于超算）。
从2021年全球算力分布来看，美国占31% ，中国占27% ，其次是日本、德国、英国等其他国家。美国的基础算力占全球35% ，智能算力占15% ，超算占30% ，而中国这三类分别为27%、26%和20% 。
邬贺铨表示，可以看到美国以基础算力为主，中国智能算力的能力远远超过美国。中国的超算和AI智能中心是以政府为主，基础算力以运营商和互联网企业为主，美国则主要是互联网企业为主。
冷数据与热数据
IDC数据显示，人类历史上90%的数据都是在过去几年间产生的， 50%在短短两年内生成的，预测到2025年数据量年均将以30%增长，即两年增70% 。
一般来说，最近产生的是热数据，经历一周或数月后将转为温或冷数据，冷、温、热数据分别占累计数据总量约80%、15%和5% 。
冷数据主要是存储，计算需求非常态。东西部分别适合处理热和冷数据，东数西算实际上是东数西存。
存算分离与存内计算
存算分离架构在控制单元指令下从存储器读数据并交到CPU计算，得到的结果还需送回存储器。但对冷数据I/O往复并不频繁，因此更适用于冷数据处理，例如云平台建模，边缘计算训练与仿真。另外，存算分离可采用开放存储体系和磁带存储介质，存储器可同时服务多服务器，池化存储支持多云，高利用率，降成本与能耗。
不过，热数据需快速计算，但受限于存算分离I/O瓶颈，且CPU能力受累于存储器访问速度难以发挥，更需要存内计算。存内技术以RAM代硬盘，在RAM内完成所有运算，例如自动驾驶可以在车内同时完成存与算，但目前实现复杂和成本高。
邬贺铨表示，虽然西部以处理冷数据为主，但也需要处理当地的热数据，冷热数据是否需要分别采用不同的存算架构？
封闭系统存储与开放系统存储
服务器一般由CPU和内存组成，如果将存储也放在一起，则称为封闭存储系统，但是容量有限。因此，大多数情况下是将存储和服务器分离，即开放系统存储，实现存储容量为多服务器共享，以池化方式支持多云应用。不同存储架构适应不同任务，可按照任务来软件定义存储。
PUE与IT能效
PUE是数据中心能耗占IT系统能耗之比，反映了制冷系统的水平，但并非衡量IT系统的能效。据统计在IDC的IT系统的能耗中，服务器约占50% ，存储系统约占35% ，网络通信设备约占15% 。
数据中心需要7*24小时工作，但通常并非7*24小时都在计算，非计算状态下也耗能，此时存储系统的能耗成为主体。据麦肯锡报告：大部分电能用于维持服务器状态，仅6-12%用于计算。