全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍机器之心报道编辑：泽南、蛋

机器之心报道
编辑：泽南、蛋酱
E级超算，每秒钟百亿亿次运算， 1后面跟18个零。

文章图片
2018年6月，美国能源部橡树岭国家实验室的工程师们发布了「Summit」超级计算机，超越神威·太湖之光成为了世界第一，它的理论峰值容量接近200petaflops——即每秒20万万亿次浮点运算，使用IBMPower9处理器和英伟达TeslaV100加速卡。
不过两年后， Summit就被使用Arm架构的日本「富岳」超过，目前排名第二。

文章图片
今年11月最新版的超算Top500榜单。
顶级超算迭代的速度如此之快，但仍然无法比拟人们的需求。在服役短短的四年时间内，橡树岭实验室对超算服务的需求就已经超过了这台巨大机器的容量。
「Summit算力会被超额认购四到五倍，」负责ORNL领先计算设施的JustinWhitt,说道。「这限制了使用它的进行研究项目的数量。」
现在，是时候讨论更快的超级计算机了。橡树岭国家实验室的下一个计划名叫Frontier ，完成后它将具有超过1.5exaflops的峰值理论容量。
Frontier的非凡之处并不在于它要比Summit强七倍以上——这个数字显然是令人惊叹的。更值得注意的是，它做到这一点只用了两倍的功率。这仍然是一个很大的功率——Frontier预计将消耗29兆瓦，足以为加利福尼亚州库比蒂诺（苹果公司所在地）大小的城镇供电。但这是一个可控的数量。
「我们现在可以在很小的空间内塞进更多的计算机硬件，」Whitt表示。「这些计算机机柜每个都与全尺寸皮卡一样重。」里面装满了ORNL的规格表所描述的「由高性能计算和AI优化的AMDEPYC处理器与RadeonInstinctGPU加速器驱动的高密度计算板卡，它们专为满足百亿亿次计算的需求而构建。」

文章图片
建造一台具有这种能力的超级计算机已经够难了，新冠疫情也让事情更加具有挑战性。「供应链的问题其实很广泛，」Whitt表示，许多对构建高性能超级计算机来说并不特殊的东西存在短缺。「它可能只是金属板或螺丝。」
【全球首台百亿亿级超算用AMD的GPU：性能增7倍，能效提升3倍】供应链问题确实是Frontier将于2022年在另一台计划中的超级计算机Aurora之前投入运行的原因，后者将安装在伊利诺伊州的美国能源部阿贡国家实验室（ArgonneNationalLaboratory,ANL）。 Aurora是在2018年先上马的，但它的建设被推迟了，因为英特尔很难提供这台机器所需的处理器和GPU 。
在团队最初的规划中， Frontier这台巨型机器将在2021年底之前交付，并在2022年全面投入使用。所以，它可以被称为世界上第一台百亿亿级超级计算机吗？
那要看每个人的定义了：「（日本的富岳超级计算机）实际上是在不同的基准实现了2exaflop的混合精度计算，」田纳西大学的JackDongarra说，他是Top500名单背后的专家成员之一。他解释说，这些排名是基于涉及64位浮点计算的基准，此类计算多用于解决许多物理模拟所需的三维偏微分方程。「这是应用超级计算机的底线，」Dongarra说。但他也指出，超级计算机越来越多地用于训练深度神经网络，在这方面16位精度就足够了。
还有一个特殊的例子「Folding@Home」，这是一个旨在模拟蛋白质折叠的分布式计算项目。几十万名玩家捐出了自己的GPU ，通过众源的方式， Folding@Home超级计算机实现了超过1exaflop（每秒1百亿亿次浮点计算）的处理能力。