|干货|直接见证NVIDIA GPU应用在各行各业大放异彩( 三 )


Citrix 产品管理副总裁 Calvin Hsu 表示:“Citrix Hypervisor8.2 和 Citrix Virtual Desktops 支持 NVIDIA 最新的 vGPU 软件和 NVIDIA A40, 尽管客户需要处理的数据和工作负载不断增加 , 我们依然可以继续为其提供运行图形密集型可视化应用程序的所需性能 。Citrix 和 NVIDIA 虚拟化技术的结合使用户无论身在何处 , 都能够访问这些应用程序 , 并获得与物理工作站相媲美的优质体验 。 ”
红帽产品管理总监 Steve Gordon 表示:“NVIDIA 最新一代 A40 GPU 和 NVIDIA vGPU 软件的结合 , 以及红帽企业 Linux 和红帽虚拟化的支持 , 能够为用户提供一个强大的平台 。 无论在石油天然气还是媒体娱乐行业 , 都能满足从 AI/ML 到可视化领域最严苛的工作负载 。 随着组织转型并越来越多地使用 Kubernetes 进行容器设计并作为其应用程序的关键构建模块 , 我们认为红帽可能是容器化和虚拟化工作负载的终点 。 ”
上面介绍了很多关于硬件资源层的知识 , 笔者再分享下构建好集群硬件后 , 关于平台软件的部署的问题
我们在开篇讲到部署AI应用需要pytorch、Tensorflow等AI框架如果没有平台软件统一管理 , 就需要使用者自己安装应用环境 , 包括CUDA、AI框架、docker等 , 再进行环境的调试 , 在AI部署中 , 软件环境调试非常耗费时间 , 并且不是所有使用者都熟悉各种软件环境 , 此外 , 没有软件平台做统一管理 , 会造成资源分配不均 , 容易产生计算资源的浪费 , 比如大多数高校发现GPU 计算资源被初学者占用 , 往往导致真正科研计算任务匮乏计算资源 , 基于 Docker 环境的计算管理环境常常发生计算资源抢占现象 , 让管理者应接不暇各种投诉 , 这里思腾合力有自主开发的SCM人工智能云平台软件 , 集成了主流的AI框架 , 可实现计算资源池化 , 按需分配给一个或多个用户使用 。 SCM云平台可对 GPU 高性能计算资源进行统一的管理和调度 , 有效满足用户在深度学习等科研及教学方面的需求 , 用户可以快速的在平台上进行数据处理、算法设计、模型训练、模型验证、模型部署等工作 , 而不用关心底层复杂的集群构建与调度机制以及深度学习框架的安装部署、性能调优等问题 , 在充分简化深度学习训练方面工作的同时有效提高资源利用率 。

其实分享到这里 , 我们的AI应用的全套装备差不多就齐全了 , 下面以实际案例 , 让我们在看看一个AI应用究竟是如何落地的 。
案例1:国内某知名智能汽车设计及制造商AI驾驶基础架构建设 , 定位于深圳 , 成立于2014年 , 是一家专注未来出行的科技公司 。 他们一直坚持饱和式研发投入 , 构建全栈自研的核心能力 , 如今已经成为中国领先的智能电动汽车公司之一 。
背景:在研发的过程中 , 尤其是深度神经网络建模及训练 , 需要大量计算力 , 因为汽车自动驾驶是需要很多大量数据进行训练 , 让这个汽车能够去进行图象图形的识别 , 然后应用在汽车当中 , 让我们的汽车能够智能化的去自动驾驶 。
需求痛点:
1、模型和算法出现算力瓶颈 , 训练出成熟的模型周期太长;
2、难分配:存在的所有资源都是以物理形式存在 , 没有办法很好的进行合理资源分配 , 导致算法研究存在一定问题 。 低效率:正在运行中的项目作业只能靠人为干预检查是否正常运行 , 费时费力 。 不灵活:大量的算力资源无法通过软件进行灵活调配 , 无法支撑算力需求极高的任务;
3、难定位:在多个线程的项目同时运行时 , 一旦有其中之一出错 , 难以精准定位报错任务 。
解决方案:从底层硬件算力平台和上层软件管理平台的统一部署 , 使用6节点思腾合力IW4213-4G , 加速计算卡为NVIDIAA40 , 配合NVIDIA 深度学习SDK与NVIDIA DRIVE? 软件堆栈进行问题的解决 。