助力云端训练深度学习模型,亚马逊发布Trn1新实例

12月1日,亚马逊AWS公布其由Trainium芯片提供支持的最新实例Trn1。“我们希望它能为在云端训练深度学习模型提供最佳的性价比,并在EC2上提供最快的性能。”AWS re:Invent大会上,Adam Selipsky说。
据了解,AWS早在2019年便推出了旨在加速推理学习的Inferentia芯片,并于2020年推出其专为机器学习模型设计的自研云端训练芯片Trainium。
此外,Trn1是首个带宽高达800 GB/s的EC2实例,很适合大规模、多节点的分布式训练用例,比如图像识别、自然语言处理(NLP)、欺诈检测、以及预测等。
更重要的是,客户能够选择将这些芯片联网到一起、并放入“超级群”(Ultra Clusters)中,以获得更强大的性能体验。
【助力云端训练深度学习模型,亚马逊发布Trn1新实例】“超级群”包含了数万个与PB级网络互连的训练加速器,背后有着强大的超算为机器学习用例提供支撑,可快速训练具有数万亿个参数的最复杂的深度学习模型。
最后,Adam Selipsky表示该公司计划与SAP等伙伴达成合作,以更好地发挥Trn1新芯片的处理能力。