推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
伴随着深度学习模型规模的指数型增长 , 常见的单卡推理解决方案已然无法满足前沿AI大模型的推理需求 。 例如1750亿参数的GPT-3模型 , 仅仅是加载模型参数就需要数百GB的存储空间 , 远超单个GPU的容纳能力 。 因此 , 对于AI大模型使用多卡并行的方式进行推理已成为必然选择 。 针对现有推理系统的这一痛点 , Colossal-AI团队以“高性能、高可用、可伸缩”的理念 , 深入单实例多设备推理场景 , 开发了大模型推理系统Energon-AI , 在性能和易用性上兼具优势:仅需对现有项目进行极少量修改 , 用户便可完成自定义大模型的推理部署 , 获得并行扩展的超线性加速 , 对于AI大模型分布式推理加速 , 相比英伟达FasterTransformer可提升50%以上 。 相比现有推理方案 , Energon-AI不再需要用户对通信、内存等各部分协作进行手动管理 , 也无需额外编译 , 大幅降低了用户的使用门槛 。 开源地址:https://github.com/hpcaitech/ColossalAIAI大模型推理部署的困难
文章图片
模型参数的迅速增长[https://arxiv.org/abs/2111.14247]近年来 , 计算设备(如GPU)的并行计算能力、内存容量 , 内存速度等都得到了极大的增强 , 然而 , 单设备纵向扩展(scaleup)的性能增益在面对指数型增长的模型规模时 , 仍难以满足大模型的内存与性能需求 。 而当前的深度学习推理系统 , 主要面向多实例单设备以及单实例单设备的简单推理场景 , 忽视了AI大模型推理所需要的单实例多设备的挑战与机遇 , Energon-AI系统正是为了解决这一痛点而生 。 Energon-AI系统设计
文章图片
Energon-AI超大模型推理系统示意图面向AI大模型部署 , 我们设计了单实例多设备推理系统Energon-AI 。 Energon-AI系统设计分为三个层次 , 即运行时系统(Runtime)、分布式推理实例(Engine)以及前端服务系统(Serving):?Runtime:在运行时系统设计过程中我们发现 , 当模型规模不断增大 , 通用矩阵乘的时间占比逐渐增大 , 而访存密集型算子与KernelLaunch的时间占比则逐渐降低 , 推理过程进一步从访存密集型向计算密集型方向迁移 , TensorRT以及专用推理系统对访存密集型操作的优化效果被极大削减 。 Energon-AIRuntime依赖于Colossal-AI实现张量并行 , 同时设计了流水线并行包装方法用于显存不足的情况 。 此外 , 我们引入了大量推理专用算子及方法 。 如 , 面对NLP中输入变长的特点 , 我们引入了transpose_padding_rebulid与transpose_padding_remove等算子用以高效支持Encoder和Decoder模型中MLP层的冗余计算消除方法 。 ?Engine:单设备推理中程序有相同的数据入口与出口 , 分布式训练的主要目标是模型参数 , 因此无须对多个进程的输入输出进行管理 , 而多设备推理则不同 。 我们希望通过良好的封装使得Engine具有与单设备推理完全相同的行为 。 我们采用了半中心化方法 , 主进程中使用RPC在每个设备调用初始化或推理方法 , 使得分布式推理可以得到中心化的控制 , 同时每个设备则保有自己的TensorParallel与PipelineParallel通信逻辑 。 我们在每个进程中设计并维护了分布式消息队列 , 用以保证多个进程中多线程调用执行的一致性 。?Serving:针对用户请求分散和变长的特点及大模型推理对GPU并行运算的依赖之间的矛盾 , Energon-AI引入了动态Batching机制 , 将请求队列中的请求按照机器性能进行最优打包后 , 根据等候时间、batch大小、batch的扩展可能性(根据padding后的句子长度)等挑选优先级最高的batch处理 , 最大化GPU使用率的同时规避饥饿问题 , 减小平均请求时延 。
- 爱奇艺实现季度盈利背后,长视频增长逻辑加速切换
- globant|加速AR业务采用,Magic Leap与Globant建立全新战略合作伙伴关系
- 本文转自:新民晚报随着复工复产提速|复工复产加速 如何最快找到身边的核酸采样点
- 京东|上海消费领域重启,京东唯品会加速恢复,一场热潮正在酝酿
- iqoo|5000mA+LCD屏,现已降价1099元,44w快充手机加速清仓
- 小米科技|安卓之光加速离场,12+256G仅3799元,小米机皇还值得买吗?
- docker|外媒改变立场?中国科技全面加速,国产大旗永不倒,芯片只是开始
- 芯片|外媒声音变了!封锁在推动中国加速研发,远不止芯片领域
- 软件|嵌入式开发:加速嵌入式系统设计的5个技巧
- realme|天玑8100+5000万AI三摄+150W闪充,这款新旗舰上市2月就加速清仓