显卡|让你的2060显卡当3080用？这个国产AI加速项目有点猛 GPU|深度学习

我们常说，现在很多人工智能项目程序考验的是钞能力，没钱堆显卡硬件，根本就无法训练哪怕稍微大一点的深度学习模型。特别是现在大模型越来越流行，越来越多了。虽然我们普通人能站在巨人的肩膀上，用很多大厂或高手开源出来的预训练模型，不过机智客觉得我们更多情况下，自己都是受制于自己的硬件条件的。比如同等型号类型（比如同为某型号的super或Ti）我们是10系列显卡，那么有些要求20系列显卡的应用或深度学习项目就做不了，如果是20系列显卡，肯定在某些项目中，比不上30系列显卡。
显卡，不仅是那些广大普通劳动人民游戏党们心中的痛，也是我们广大普通劳动人民调参侠AI爱好者心中的痛。不同的是，游戏界的兄弟姐妹们，面对显卡桎梏，估计“没的救” ，而对于深度学习爱好者们，估计还有得救。比如机智客看到报道的这个国产的名为Colossal-AI的项目。这货，让你的显卡做原来做不了的事，训练原来训练不了的项目。没错，它是一个“加速器”：整合了多种深度学习并行方法的AI系统。
【显卡|让你的2060显卡当3080用？这个国产AI加速项目有点猛】
这个项目在多维并行、大规模优化、自适应任务调度、消除冗余内存等方面拥有独特的功能优势。机智客看相关资料显示，这个也就是说，在以往数据并行、流水并行、张量并行基础上，添加了自研的2维/2.5维/3维张量并行方法，以及序列并行实现。而自研LAMB、LARS等大规模优化器，解决了泛化误差问题。通过演化算法， Colossal-AI动态地优化调度决策，提升GPU利用率。另外在消除冗余内存方面，它使用zero redundancy optimizer技术，通过切分优化器状态、梯度、模型参数，使GPU仅保存当前计算所需的部分，从而来消除数据并行、模型并行中存在的内存冗余。同样，在面对传统大模型难以部署的问题，它也可以仅使用少量GPU资源实现低成本部署大模型。
不仅如此，这个项目还既考虑到了现在让很多人诟病的能耗问题，又顾及到了使用者的体验问题也就是易用性问题。比如尽可能减少数据移动量，比如仅修改少量代码，就能将已有的单机代码快速扩展到并行计算集群上。
回到现实测试环境，在同等情况下训练GPT-3 ， Colossal-AI这货能将训练速度提高10.7% 。通过系统优化，还能用比之前少几十块的GPU资源（比如从之前的128块，降低到96块）实现几乎同样的速度。要知道，这可是大模型啊。
别的我们接触的少，用我们以前用过的GPT-2来举例子看看，据了解，研究人员仅用了256块GPU ，耗时82.8小时就将15亿参数的GPT-2训练完成了，而更大的GPU规模呢，岂不是四五十个小时就能搞定了。是不是比较卓越？最后回到标题，当然了，机智客说让我们的2060显卡当3080显卡用，面对本文提及的项目似乎并无意义，不过这样的AI项目，的确是在降低我们的硬件成本和时间成本。虽然对单个的显卡，而当我们切换到生产环境中以后，类似这样的AI项目就是在让我们GPU资源的利用提升了一个高度，以往不能训练的，现在可以训练了。如此AI ，岂不快哉。