算力|能效提升3倍,登临科技展示国内唯一量产GPU实力

机器之心报道
机器之心编辑部
AI 时代应该构建什么样的 GPU?这家创业公司给出了自己的答案。
去年 5 月,1750 亿参数的超大预训练模型 GPT-3 让世人惊艳,AI 模型体量大规模增长之后产生的效果出乎预料,引发了新一轮的技术发展。今年,一些 AI 模型的体量已经达到了万亿参数,这样的超级模型需要无数 GPU 进行并联计算。
然而不断膨胀的算力需求成为了挑战:摩尔定律已逐渐走向尽头。而在算力之外,硬件功耗与散热的挑战也阻碍着 AI 应用的落地。
7 月 10 日,在上海举行的 2021 年世界人工智能大会(WAIC)开发者论坛上,登临科技创始人兼 CEO 李建文围绕「GPU+: AI 新时代下的软硬件协同异构计算平台」为主题进行了演讲。在活动中,李建文给线上线下两万多位观众展示的了登临科技 GPU + 产品的卓越能效。这家国内少有的,选择 GPU 赛道、直面英伟达的创业公司在近期受到了社会各界的强势围观。
算力|能效提升3倍,登临科技展示国内唯一量产GPU实力
文章插图
登临科技创始人兼 CEO 李建文在 AI 开发者论坛上。
「在服务器及云端大规模应用 GPU,是因为它的通用性好,可以运行各类神经网络,这也与云端计算的需求非常吻合。但另一方面,GPU 计算 AI 负载时的效率还不是很高,」李建文说道。「登临科技 GPU + 的核心理念是继承现有软件生态和 GPU 的通用性,又通过架构创新来弥补 GPU 的缺点。」
在深度学习引领的最近一波 AI 浪潮中,GPU 扮演着重要作用,大量开源生态的应用开发基础设施是在英伟达 CUDA 软件生态上完成的。如何保持客户已有的投入,是 AI 技术产业化的重要课题。
与很多科技公司选择「特定领域体系结构」ASIC 的方向不同,登临科技希望能够找到一种与现有 GPU 产品兼容,同时又可以大幅度提高 AI 模型计算效率的技术路线。
算力|能效提升3倍,登临科技展示国内唯一量产GPU实力
文章插图
登临科技提出的「GPU+」是一种软件定义的片内异构通用人工智能处理器。传统的异构计算是以不同种类的芯片在系统上实现的,这种方式面临着芯片间数据传递的瓶颈。登临科技的 GPU + 则在片内集成了多种计算引擎,从而解决了这个难题。
「我们把不同的计算引擎,GPGPU 和针对张量计算相关的计算引擎集成到了一起,调度引擎可以在高维度来控制算力的分配。登临的片内异构计算可以扩展到其他的异构引擎,这些引擎既可以并行计算,也可以独立工作。另外我们还有自主研发的高吞吐数据交换网络。」李建文介绍道。
这种架构在数据流、执行模型、内存管理和数据存储上,相对于传统 GPU 都有非常大的改进。由于在更高的抽象维度上进行调度和算力分配,它增加了计算密度,提高了效率,极大地降低了 GPU 对于外部带宽的需求。
目前,登临科技 Goldwasser 系列产品已实现规模量产。Goldwasser 系列产品:包括边缘计算产品 Goldwasser UL,功率 25-35W,INT8 算力 32-64TOPS;半高半长的服务器计算卡 Goldwasser L,功耗 40-70W,提供 128-256TOPS 算力;另有一种全高全长的 Goldwasser XL,输出 512TOPS 算力。
算力|能效提升3倍,登临科技展示国内唯一量产GPU实力
文章插图
在实测过程中,登临的 GPU + 在 40W TDP 时输出了 128TOPS 算力,和国际主流产品对比其功耗更低,性能更高。在同样的工艺上,GPU + 可以以更小的芯片面积,在同样功耗下,在不同神经网络上提升 3-10 倍计算效率,并同时可减低芯片性能对外存吞吐的依赖。
算力|能效提升3倍,登临科技展示国内唯一量产GPU实力