英伟达|NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践

英伟达|NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践


去年7月 , 智东西公开课曾策划推出 NVIDIA Triton 推理引擎专场 , NVIDIA 高级深度学习软件架构师何成杰和蚂蚁集团高级技术专家饶星 , 两位技术专家围绕主题《面向多框架的AI模型部署服务 Triton 及其在蚂蚁预测引擎中的应用实践》 , 对 Triton 推理引擎的多框架兼容特性 , 以及 Triton 在蚂蚁预测引擎中的创新应用进行了深度讲解 。
6月28日 , NVIDIA Triton 推理引擎公开课再上新 。 本次公开课由 NVIDIA 解决方案架构师张萌和申意分别主讲和直播答疑 , 主题为《基于 NVIDIA Triton 的AI模型高效部署实践》 。
NVIDIA Triton 推理服务器(以前称为 TensorRT 推理服务器)是一款开源软件 , 可简化深度学习模型在生产环境中的部署 。 借助 Triton 推理服务器 , Devops 和 MLops 团队可以将各类框架(TensorFlowPyTorch、TensorRT、ONNX Runtime、MXNet、XGBoost 等或自定义框架后端)训练的 AI 模型 , 在基于 GPU 或 CPU的本地、数据中心、云、边缘云等平台 , 快速可靠地部署在诸如 Kubernetes、KFServing、Prometheus、Grafana 等大规模生产环境中 , 并轻松扩展 。

视频来源于 NVIDIA

借助 NVIDIA Ampere 架构 Tensor Core 和多实例并行运行多个工作负载( MIG ) , Triton 推理服务器可以最大化 A100 GPU 和 A30 GPU 的利用率 。 它不仅可在单个 NVIDIA GPU 上同时运行多个模型 , 以更大限度地提高利用率 , 与 Kubernetes 集成以用于编排、指标和自动扩展 , 还可以让多个用户共享一个 GPU, 通过将单个 GPU 划分为多个 GPU 实例 , 让每个实例都有专用的内存和计算资源 , 在确保执行工作负载的同时 , 保证服务质量和故障隔离 。
【英伟达|NVIDIA Triton 推理引擎公开课上新:基于多实例 GPU 和 K8s 的大规模 CV 模型部署实践】在本次公开课 , 张萌将参与主讲环节 。 她会结合AI模型部署的挑战和 NVIDIA Triton 的重要功能 , 分享应用 Triton 的收益 , 之后会重点讲解基于 Ampere 架构多实例 GPU 特性和 K8s 实现 Triton 大规模部署 。 最后 , 张萌会就如何使用 Triton 部署端到端的 CV 模型进行实例演示 , 并介绍 Triton 在行业内的一些应用案例 。 另一位主讲人申意则将主要参与问答环节 。
「 NVIDIA Triton 推理引擎公开课」将在智东西公开课知识店铺上以视频直播的形式进行 。
公开课信息
主 题
《基于NVIDIA Triton的AI模型高效部署实践》
提 纲
1、AI 模型部署现状及挑战
2、NVIDIA Triton 的重要功能
3、基于 Ampere 架构多实例 GPU 特性和 K8s 实现 Triton 大规模部署
4、实例演示:使用 Triton 部署端到端的 CV 模型
5、应用案例
主 讲 人
张萌 , NVIDIA解决方案架构师;负责NVIDIA 医疗健康行业 GPU 计算解决方案设计与研究 , 包括深度学习训练和推理 , GPU 分布式并行计算加速等 。
申意 , NVIDIA解决方案架构师;负责为消费互联网行业提供 GPU 计算解决方案 。 包括编解码 , 数据前后处理 , 模型推理及服务化等 。
直 播 时 间
6月28日19:00-20:00
报名链接
https://aiorang.com/f/P0mOhkFh3fmO8H