亚马逊|自研芯片加训练集群,亚马逊云科技正在成为机器学习的伊甸园( 二 )


文章插图
【用两周时间训练GPT-3所需的实例数,从600个缩减到了96个】
亚马逊云科技大中华区产品部计算与存储总监周舸的介绍中了解到,更高的网络性能意味着更低的网络开销,而更低的网络开销意味着能将模型的训练过程交给更大规模的集群上来完成。
熟悉机器学习训练的朋友都了解,以前许多训练都是在单机上完成的,而分布式并行训练的技术难点是如何将用于训练的数据和训练的负载进行拆分和组合,技术实现很难,一旦实现则意味着集群能化解大型机器学习模型的训练难度。
亚马逊|自研芯片加训练集群,亚马逊云科技正在成为机器学习的伊甸园
文章插图
【模型复杂度急剧增长】
以GPT-3,GPT-4为代表的巨型机器学习模型让我们意识到,理论上机器学习模型参数的数量是没有上限的,而算力增速是有限的,在这一趋势下,云计算上构建的机器学习训练集群的优势就非常明显了。
灵活多样的选择
当然,Amazon SageMaker的创新也很重要,比如图形化的自动化机器学习服务——Amazon SageMaker Canvas让云上机器学习的使用体验得以提升,让机器学习的普及和普惠成为可能。
我可不是乱说,我亲手试过的,即使是什么都不懂的小白也能上手机器学习。十分钟,小白的我用亚马逊云服务(AWS)的SageMaker训练了一个ML模型、Amazon Personalize:不用写代码也能开发个性化推荐系统。
而大规模集群给了云上机器学习的绝对优势,将云计算分布式架构的弹性优势释放的淋漓尽致,未来会有更多机器学习负载迁移到公有云上。
当然,在机器学习方面,亚马逊云科技自研的训练和推理芯片也并非要取代英伟达和英特尔方案,用户可以根据实际应用环境的不同,比如编译器、模型、机器学习框架不同选择更适合的方案,多种选择的加持下,共同将亚马逊云科技打造成适合做机器学习的云平台。
【 亚马逊|自研芯片加训练集群,亚马逊云科技正在成为机器学习的伊甸园】本文为re:Invent 2021亮点解读的第二部分,关于机器学习的部分,此前介绍了关于Graviton的内容,后续还有关于存储的部分,欢迎继续关注。