GPU池化如何帮助AI业务混合部署( 二 )


业务收益:①无需人工干预 。 ②在线业务无需中断 。 ③充分释放算力 , 提升GPU整体使用效率 。
OrionX池化能力关键词:化整为零 , 动态释放 , 算力超分 , 任务优先级 。
GPU池化如何帮助AI业务混合部署
文章图片
GPU池化优化的场景三:训练/推理混合部署 , 显存扩展 , 分时复用
在削峰填谷这个路径上 , 我们还可以向前进一步探索更大的扩展空间 , 比如加载训练任务进行复用 。 推理业务主要在上班时间运行 , 而训练任务的运行时段则比较灵活 , 通过合理搭配训练和推理业务 , 就可以利用二者呈现出的运行时段的互补性 , 极大的提高GPU资源的利用率 。
然而 , 训练任务需要的显存通常比推理要大得多 , 如果要把两者同时加载在一起复用 , 很大概率会超过显存上限 。 那么这个时候就要使用显存超分 。
显存超分是一个用系统内存补充显存的技术 , 补充进来的内存将被用作显存的“缓存” , 冷/热数据可以自动的在显存与“缓存”之间进行切换 。 该技术可以突破物理GPU卡显存的上限 , 再叠加上算力超分 , 可以赋予虚拟GPU更从容的分配能力 。 同时再结合OrionX的任务调度与任务优先级 , 即可实现GPU资源合理分配 。
白天 , 推理业务优先占用GPU , 保证在上班高负载下的服务质量 。 到了晚上或节假日 , 推理业务请求量很少 , 系统自动将显存数据切换至内存上 , 把GPU资源调度给训练业务 。 晚间或次日白天有推理业务请求时系统自动将推理业务的数据从内存中加载到显存中 , GPU算力资源又调度回推理业务 。
如果在非工作时间 , 推理业务有请求达到 , 系统会自动调度以保证高优先级的推理业务的及时响应 , 系统会即刻将缓存在内存中的推理数据切换至显存 , 保障推理业务的优先权 。
整个切换过程可以全程自动化、周期化、不改变系统部署、不影响业务的正常运行 , 从而实现训练+推理叠加的模式 。
业务收益:①突破显存限制 , 提升扩展能力 。 ②增加业务吞吐量 。 ③无需人工干预 。
OrionX池化能力关键词:化整为零 , 动态释放 , 算力超分 , 显存超分 , 任务优先级 。
GPU池化如何帮助AI业务混合部署
文章图片
结语
技术的道路从来都不是一蹴而就的 , 需要持续不断的努力与探索 。 软件定义GPU的道路也是一样 。 GPU虚拟化解决了GPU共享的问题 , 降低了硬件成本 。 在虚拟化技术之上延伸而出的GPU池化技术 , 能够扩展出更多实用的功能 , 这些技术可以帮助企业解决业务规模化与自动化问题 , 进一步提高其开发及工作效率 。
随着软件定义算力的普及 , 我们还将不断深入探索 , 加大技术与业务的融合力度 , 让GPU池化技术惠及更多AI企业!
关于OrionXAI算力资源池化软件:
趋动科技的OrionXAI算力资源池化解决方案帮助客户构建数据中心级AI算力资源池 , 使用户应用无需修改就能透明地共享和使用数据中心内任何服务器之上的AI加速器 。 OrionX不但能够帮助用户提高AI算力资源利用率 , 而且可以极大便利用户AI应用的部署 。 OrionX通过软件定义AI算力 , 颠覆了原有的AI应用直接调用物理GPU的架构 , 增加软件层 , 将AI应用与物理GPU解耦合 。 AI应用调用逻辑的OrionXvGPU , 再由OrionX将OrionXvGPU需求匹配到具体的物理GPU 。 OrionX架构实现了GPU资源池化 , 让用户高效、智能、灵活地使用GPU资源 , 达到了降本增效的目的 。
OrionX通过构建GPU资源池 , 让企业内的AI用户共享数据中心内所有服务器上的GPU算力 。 AI开发人员不必再关心底层资源状况 , 专注于更有价值的业务层面 , 让应用开发变得更加便捷 。 根据客户测算 , OrionX猎户座软件可以每年提升50%AI算法工程师人效、提升AI资源利用率3-8倍以及让客户总体拥有成本下降80% 。