智慧医疗|人工智能计算中心成AI热词，但你真的理解它吗？

文 | 曾响铃
来源 | 科技向令说
【智慧医疗|人工智能计算中心成AI热词，但你真的理解它吗？】深圳、武汉、成都、西安……越来越多的城市在以政府为主导的形式构建“人工智能计算中心”，全国范围内，作为数字时代新基建的人工智能计算中心正在多点开花。
在AI产业快速发展、算力需求呈现几何式迸发的当下，一边是有关算力的技术创新不断涌现，另一边是在算力供给模式上人工智能计算中心已经成为从政府到关联产业、组织的普遍共识。
只不过，尽管这个AI热词已经广泛出现在各种产业舆论中，但对于人工智能计算中心究竟是什么，业界和大众可能还是有着诸多误解。
误解一：人工智能计算中心是一大堆算力硬件的堆叠
基于过去对数据中心这类事物的朴素认知，很多人对人工智能计算中心的直接看法，是把一大堆算力硬件堆叠在一起，以硬件集群化的共享算力模式向各企业、机构输送算力，后者不再需要自己建设硬件基础设施，只需要购买服务即可。
这种认知看到了硬件集约化在人工智能计算中心的作用（把算力当做服务），但如果人工智能计算中心只是简单的硬件堆叠，可能也不用地方政府主导大力推进，只需要砸钱购置一大堆能够提供算力的硬件像搭设服务器机房一样找个场所联好网，组装到一起就可以了。
事实上，从已经落地运营的人工智能计算中心来看，要正确认识这个AI新事物，有三个维度的特点值得注意：
一是算力的效能实现了大幅度的提升。
如同中国科学技术信息研究所发布的《人工智能计算中心发展白皮书》所言，人工智能计算中心呈现超级计算与人工智能融合、云与人工智能融合的趋势，这意味着它绝不只是算力硬件的简单堆叠，还有如同超算一样的,将有计算能力的大批量硬件高效协同起来的能力，以及以云端服务的方式最优化响应需求和输出结果的能力。

文章插图

以深圳的 “鹏城云脑Ⅱ”为例，其采用的是Atlas 900 AI集群方案，由数千颗昇腾910 AI处理器构成，这些硬件必须要有统筹规划的能力才能更好地输出，而实现方式则是华为集群通信库和作业调度平台，以系统级调优整合三种硬件高速接口，最终实现E级（每秒10^18次方次浮点计算能力）的总算力。
相对于传统本地部署的做法，人工智能计算中心的“效能”大大提升，每单位算力的成本会比企业、机构自建算力设施要低很多，意味着人工智能计算中心不仅提供算力，而且提供的还是高性价比的、安全、普惠的算力资源，各类组织的算力成本被大大降低，算力瓶颈问题得以缓解。
二是算力输出做到了全栈化。
当下的人工智能计算中心已经做到了从芯片到应用层的基础软硬件的全栈融合，而不仅仅只有以服务器、存储、网络、能源、制冷设备等形态出现的硬件。
当前，地方政府主导建设的人工智能计算中心主要是基于昇腾AI全栈基础软硬件平台，这些基础硬件被异构计算架构CANN所“管理和运营”，往上支撑包括昇思MindSpore AI框架，也兼容TensorFlow等AI框架满足不同企业开发需求。
而除此之外，昇腾AI还提供MindX等应用使能套件，最终面向具体行业应用，帮助企业、机构在充沛算力的基础上更好地完成AI开发工作。
借助昇腾AI的全栈优势，人工智能计算中心推进AI应用的开发过程能够与场景无缝融合。以电力巡检场景为例，AI解决方案企业纳思系统通过武汉人工智能计算中心完成的5种算法训练被利用到了输电线路巡检当中，在实际应用的边缘端场景中，基于昇腾AI的Atlas 200 AI加速模块与特殊影像终端协作，解决了夜间监控难、算法能力不足造成大量误报/漏报等痛点问题。可以看到，人工智能计算中心与场景应用是完全打通的，解决方案可以“一体成型”而非只是找人工智能计算中心要了训练过程中的计算服务。