联想|去繁就简:如何看待这场正在兴起的云原生超级计算风暴( 二 )


DPU的落地 , 实现的不仅是应用之间的隔离和租户之间的隔离 , 对于多租户多应用的场景而言 , 还率先实现了租户应用和应用之间性能的隔离 , 同时还支持超级计算机的安全与编排 , 建立起零信认架构 。 如此一来 , 理想的裸机性能就有了实现的保障 。
数据中心内的服务器依靠网络实现连接 , 而云原生依赖的微服务带来了更多东西流量 , 因此网络性能不仅影响着系统的整体性能 , 还会因为微服务程序之间会产生相应的数据流交互激增 , 而让跨服务器或数据中心内部的横向攻击威胁增加 。 而NVIDIA Quantum-2 InfiniBand 平台可以主动地监控网络流量和并执行增强的拥塞管理机制 , 实现了流量隔离 , 几乎完全消除性能抖动 , 确保可预测的性能 , 就像应用程序在专用系统上运行一样 。 因此 , InfiniBand 网络完全可以称得上是云原生超级计算的另一根支柱 。
NVIDIA Quantum InfiniBand 网络可加速并卸载数据传输 , 确保不会因数据或带宽限制而使计算资源“挨饿” 。 NVIDIA Quantum InfiniBand 网络可以在不同的用户或租户之间进行分区 , 提供安全性和服务质量 (QoS) 保证 。 目前BlueField-3 DPU已经可以支持400GB的带宽 。 在NVIDIA与微软打造的全球最强大的 AI 超级计算机中 , Azure同样在其平台上添加了NVIDIA Quantum-2 400Gb/s InfiniBand 网络 。
宋庆春介绍说:“目前用户需要一个高性能网络满足业务性能 , 云原生超级计算架构提供了一个异构网络的方式优化性能 , 让性能达到极致 , 同时优化整个数据中心的设计 。 最终实现以最小的硬件达到最优的性能 , 这样就会产生节能减排的效果 。 ”
云原生超级计算离不开更多网络创新成果的支撑 , 在交换机上 , NVIDIA利用SHARP网络计算已经助力ALLreduce通信带宽突破了网络极限 。 在其它方面 , 更多创新成果带来的不间断网络、自动修复网络等应用场景也已经变成了现实 。 显然 , InfiniBand已经托起了用户急需的这个高性能异构网络 。
宋庆春强调了应用云原生超级计算时网络搭建中的问题:“随着网络速度越来越高 , 数据中心地规模也越来越大 , 网络出问题的机会也越来越多 。 线缆作为连接数据中心里各个部件地关键部件之一 , 成为了影响系统稳定性地最大因素 , 而当线缆出现问题时 , 最终还需要从网卡、交换机厂方面来发现和解决这些问题 , 而且在数据中心中更换线路要远比更换网卡和交换机要复杂地多 , 因为线缆往往部署在地下或者是屋顶 。 因此为了规避这样的问题 , 我们建议采用NVIDIA端到端的解决方案确保整个系统的可靠性 。 ”
DOCA的生态支撑
云原生超级计算平台需要一个软硬件一体的解决方案 , 因此软件的作用同样不能忽视 。 其中 , NVIDIA MAGNUM IO软件开发套件 (SDK) 使开发者能够优化应用程序中的输入/输出 (IO) , 从而减少其工作流程中的端到端时间 。 NVIDIA DOCA SDK 使基础设施开发者能够利用行业标准 API , 在 NVIDIA BlueField DPU 上快速创建网络、存储、安全、管理以及 AI 和 HPC 等各种应用程序和服务 。
借助 DOCA , 开发者可以通过创建高性能、软件定义和云原生 DPU 加速的服务 , 对未来的超级计算基础设施进行编程 。 因此 , 决定这场云原生超级计算风暴能走多远的因素 , 最终还是要看 DOCA在技术人员中的普及程度 。
为了普及DOCA , DOCA社区被建立起来 , 其中来自国内的注册者占据了整个DOCA社区的半壁江山 。 NVIDIA DPU 中国黑客松更是DOCA生态成长的集中体现 。

NVIDIA 网络技术专家 崔岩
NVIDIA 网络技术专家崔岩介绍了近期举办的2022 秋季 NVIDIA DPU 中国黑客松的情况:“DPU 中国黑客松训练营吸引了超过3500人参加 , 最终确定了27支注册团队 , 从中产生了13支参赛团队 。 此外 , 本届和上届在题目上有一点区别 , 由于NVIDIA BlueField DPU和NVIDIA DOCA在云原生超级计算架构里面成了关键组成部分 , 所以我们让参赛的团队围绕使用NVIDIA BlueField DPU和NVIDIA DOCA实现RDMA加速存储与AI的解决方案 。 ”