推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径( 三 )


C++//MemoryAllocation(onlyforasingleparamerter).T*d_inter_kernel=NULLparam_.ffn.intermediate_weight.kernel=d_inter_kernel;device_malloc(&d_inter_kernel,dim*dim);//TwoMLPLayerscublasMM_cublasLtMM_wrapper(param_.cublaslt_handle,param_.cublas_handle,CUBLAS_OP_N,CUBLAS_OP_N,n,m,k,&alpha,param_.ffn.intermediate_weight.kernel,AType_,n,attr_matmul_buf_,BType_,k,&beta,(DataType_*)inter_matmul_buf_,CType_,n,param_.stream,cublasAlgoMap_,sm_,cublas_workspace_);add_bias_act_kernelLauncher(inter_matmul_buf_,param_.ffn.intermediate_weight.bias,m,n,ActivationType::GELU,param_.stream);n=k;cublasMM_cublasLtMM_wrapper(param_.cublaslt_handle,param_.cublas_handle,CUBLAS_OP_N,CUBLAS_OP_N,n,m,k,&alpha,param_.ffn.output_weight.kernel,AType_,n,inter_matmul_buf_,BType_,k,&beta,(DataType_*)(param_.transformer_out),CType_,n,param_.stream,cublasAlgoMap_,sm_,cublas_workspace_);add_bias_input_layernorm_kernelLauncher(param_.transformer_out,attr_matmul_buf_,param_.ffn.output_weight.bias,param_.ffn_layernorm.gamma,param_.ffn_layernorm.beta,m,n,param_.stream);//Communicationif(t_parallel_param_.world_size>1){all2all_gather(nccl_logits_buf_,nccl_logits_buf_,local_batch*n,t_parallel_param_,decoding_params.stream);}更多特性
本次发布的Energon-AI子系统为beta版 , 近期会根据用户反馈与既定计划 , 进行密集的迭代更新 , 尽早为用户提供正式版 , 充分满足用户的不同推理部署需求 , 欢迎向Energon-AI提出您的需求与建议 。
推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径】构建AI大模型生态系统
面对AI大模型的时代浪潮 , 除了本次新增的推理部署特性 , 针对现有大模型训练方案并行维度有限、效率不高、通用性差、部署困难、缺乏维护等痛点 , Colossal-AI通过高效多维并行和异构并行等技术 , 让用户仅需极少量修改 , 即可高效快速部署AI大模型训练 。 例如对于GPT-3这样的超大AI模型 , 相比英伟达方案 , Colossal-AI仅需一半的计算资源 , 即可启动训练;若使用相同计算资源 , 则能提速11% , 可降低GPT-3训练成本超百万美元 。 推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
对于蛋白质结构预测应用AlphaFold , 基于Colossal-AI的加速方案的FastFold , 成功超越谷歌和哥伦比亚大学的方案 , 将AlphaFold训练时间从11天减少到67小时 , 且总成本更低 , 在长序列推理中也实现9.3~11.6倍的速度提升 。 推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
Colossal-AI兼容低端设备 , 在仅有一块GPU的个人PC上便能训练高达180亿参数GPT;普通的笔记本电脑 , 也能训练十几亿参数的模型 , 相比现有主流方案 , 可提升参数容量十余倍 , 大幅度降低了AI大模型微调和推理等下游任务和应用部署的门槛 。 推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
Colossal-AI注重开源社区建设 , 提供中文教程 , 开放用户社群及论坛 , 对于用户反馈进行高效交流与迭代更新 , 不断添加等前沿特性 。 自然开源以来 , Colossal-AI已经多次登上GitHub热榜Python方向世界第一 , 与众多已有数万star的明星开源项目一起受到海内外关注!推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
在反映机器学习领域热点的PapersWithCode网站上 , Colossal-AI也广受关注 , 荣登热榜第一 。 推理加速 GPT-3 超越英伟达方案50%!开源方案打通大模型落地关键路径
文章图片
传送门项目地址:https://github.com/hpcaitech/ColossalAI参考链接:https://medium.com/@hpcaitech/6139c5bc7790