亚马逊云科技十年领跑,为云而生的硬件创新进入加速期,普惠百万用户( 二 )


Formula1(F1)赛车始于1950年 , 是世界上最负盛名的赛车比赛 , 也是世界上最受欢迎的年度体育系列 。 “基于AmazonGraviton2的C6gn实例为我们的一些CFD工作负载提供了最佳性价比 。 我们现在发现 , 在相同的模拟中 , Graviton3C7g实例比Graviton2C6gn实例快40% 。 我们很高兴EFA将成为此实例类型的标准 , 并鉴于性价比的大幅提升 , 我们预计基于AmazonGraviton3的实例将成为运行我们所有CFD工作负载的最佳选择 。 ”PatSymonds , Formula1Management的首席技术官说道 。
亚马逊云科技十年领跑,为云而生的硬件创新进入加速期,普惠百万用户
文章图片
2022re:Invent大会上 , 亚马逊云科技正式推出了针对高性能计算优化的AmazonGraviton3E芯片 , 进一步优化了浮点运算性能 , 提升35% , 对比上一代耗能减少了60% 。 此外 , 亚马逊云科技在这次大会上还同时推出了基于AmazonGraviton3E的高性能计算实例HPC7g和C7gn 。 可见亚马逊云科技在自研芯片上不仅推出速度非常快 , 而且每一代都取得了极大的飞跃和提升 。
亚马逊云科技十年领跑,为云而生的硬件创新进入加速期,普惠百万用户
文章图片
新的HPC7g实例类型具有最多64个vCPU和128GB内存 , 主要适用于天气预报、生命科学、工程计算等高性能计算场景;新推出的C7gn实例相比于C7g , 为网络密集型工作负载而设计 , 如数据分析、集群计算作业场景 , 以及网络虚拟化设备等 , 将支持200Gbps的网络带宽 , 提高50%的数据包处理性能 。
创新从未停止 , AI芯片再进化
亚马逊云科技在云计算方面的创新一直没有停止 , 而创新的动力源泉就是客户的需求 , 每一个实例背后都有一个客户应用场景 。 例如 , 亚马逊云科技把苹果MacMini的算力搬上云端 , 让苹果的应用开发者也可以方便地使用云上算力资源进行应用开发 。 现在深度学习已经应用到了我们生活的方方面面 , 如推荐算法、语音识别、视觉识别等 。 深度学习模型的规模也在爆炸性增长 , 最近新出模型都有了一千亿的参数 , 这些都对底层的计算平台提出了非常高的要求 。 深度学习分为训练和推理两步 , 训练的过程很慢 , 大的模型需要训练比较长的时间 , 而训练好的模型可以被重复推理使用 , 大规模商用模型每天可能跑上万次推理 , 所以推理所需花费反而会比较大 。
在2018年re:Invent上亚马逊云科技正式发布了旨在以低成本提供高性能推理的AmazonInferentia芯片 , 2019年发布了对应的Inf1实例 。 Inf1拥有有多达16个Inferentia芯片 , 与当时基于GPU的EC2实例相比 , 吞吐量最高可提高2.3倍 , 每次推理的成本降低多达70% , 出色的性能使得AmazonInferentia在面世不久就收获了众多客户的认可 。 2022的re:Invent正式发布了EC2Inf2实例预览版 , 旨在以最低的成本为推理应用程序提供更高的性能 。 与Inf1实例相比 , Inf2实例提供高3倍的计算性能、高4倍的吞吐量和低10倍的延迟 。 Inf2是第一个支持分布式推理的推理优化型AmazonEC2实例 , 该技术将大型模型分布在多个芯片上 , 为参数超过1000亿的深度学习模型提供极佳性能 。 Inf2实例支持随机舍入 , 这种以概率方式进行四舍五入的方式与传统的四舍五入相比 , 能够提供更高的性能和更高的精度 。 In2实例支持广泛的数据类型 , 包括可提高吞吐量并降低了每次推理功耗的CFP8 , 和可提升尚未利用到低精度数据类型模块性能的FP32 。
亚马逊云科技十年领跑,为云而生的硬件创新进入加速期,普惠百万用户
文章图片
2020年re:Invent , 亚马逊云科技发布了专门用于训练机器学习模型的定制芯片Trainium , 并于2021年发布了对应的Trn1实例 。 Trainium支持TensorFlow、PyTorch和MXNet 。 Trn1实例支持最多16颗Trainium加速芯片 。 在Trn1上运行HuggingFaceBERT大模型 , 其性能对比GPU实例有42%的提升 , 成本则降低了54% 。 Trn1第一次把实例的网络带宽提高到了800GB 。 在2022re:Invent上 , 面向新的AI训练需求 , 亚马逊云科技推出了Trn1n , 针对网络通信进行优化 , 增加了支持1600Gbps的EFA网络功能 , 使其能够更快地处理超大规模分布式模型训练场景 。