为高性能业务上云扫清障碍!云原生超级计算如何做到?( 二 )
文章图片
云原生超级计算技术是通过提升性能来减少硬件设备需求 , 从而实现降低功耗 。 如果一个数据中心的业务可以通过更少的硬件设备来完成 , 这是最佳的降低功耗的方式 。 或者在同样的投资前提下 , 用户可以获得更多的算力资源 。
二、核心技术拆解 , 已应用于微软公有云Azure
用DPU做加速和通信 , 操作其实非常简单 。
让Host发一个通知到DPU上 , DPU收到通知后就和远端DPU进行沟通 , 然后可直接在本地HostMemory和远端HostMemory建立通信通道 , 实现数据之间的传递 。 整个通信过程中 , 所有操作都由DPUAPP监视 , 不需要CPU参与 , CPU只是发出通知 , 等到DPU收到通知以后去执行 。
文章图片
用DPU加速或卸载通信 , 可在一些业务实现非常不错的性能提升 。 例如分子动力学模型的应用已实现20%的性能提升 , 数据建模应用场景可实现将26%的性能提升 , 天气预告模型实现了大约24%的性能提升 。
云原生超级计算离不开的交换机计算SHARP技术 , 这是迄今为止英伟达独有的技术 , 在交换机上可进行数据的Aggregation和Reduction , 消除网络拥塞 , 突破网络物理带宽的限制 。
文章图片
使用SHARP , 可将Reduce通信带宽实现1倍的提升 。 基于NVIDIASuperPod参考架构 , 8张200GBInfiniBand的卡 , 总共聚合带宽是200GB总带宽 , 用Sharp技术后 , 实际测到的带宽性能可达到230GB~260GB 。
文章图片
NVIDIA网络亚太区高级总监宋庆春认为 , 当前云服务之所以难以普及 , 一大难题便是有些业务在云上没法保障运行效率 , 可能会受到云上其他业务的影响 。 而借助性能隔离技术 , 有望在云上实现和在单独机器上跑业务达到一样的高性能 。
这在微软公有云Azure上已得到验证和应用:蓝色曲线是单独机器独立只跑一个业务时的性能表现 , 0.6~0.7时间段做了多次迭代计算;而将同样的业务放在云上时 , 如果没有性能隔离技术 , 云上往往还在跑一些别的业务 , 会对关键业务造成一些影响 , 在中间绿色曲线图上 , 可以看到0.6~0.8时间段 , 迭代次数远低于在单独机器上跑业务的迭代次数 。
文章图片
如果把性能隔离技术用到同种应用 , 可以看到Azure两条线是重叠的 , 虚线是在一个平台上只跑一个业务 , 实线是在云上跑多个业务 , 启用性能隔离技术即可实现两条线的重叠 , 即在云上跑关键业务的时候能得到同样的性能保障 。
除此之外 , 网络计算还有非常广泛的范畴及应用场景 , 包括如何点对点通信加速、保障网络不间断、让网络自动修复等 。
三、DPU中国黑客松竞赛回顾:SDIC团队获得一等奖
NVIDIA网络技术专家崔岩对2022年秋季NVIDIADPU中国黑客松竞赛的赛事进行回顾 , 并分享了最终竞赛结果 。
2022年秋季NVIDIADPU中国黑客松竞赛从8月开始筹备 , 9月12日官方招募 , 总共有27支团队注册 , 10月19日面向参赛队伍和中国DOCA社区开发者举行了黑客松训练营 , 共吸引3500人参与、上万人次的观看 , 10月22日正式开赛 , 比赛时间为24小时 , 13支团队入选最终竞赛 , 总共有51位开发者、6位女性开发者 , 其中既有企业开发者也有学校学生开发者 。
本届和上届的题目稍有区别 , 英伟达BlueFieldDPU和DOCA软件框架是云原生超级计算架构里是一个关键组成部分 , 所以在这24小时比赛中 , 参赛团队被要求围绕使用BlueFieldDPU和DOCA实现RDMA加速存储与AI的解决方案 。
- 华为已行动,又是一个千亿BG,奔驰已经加入
- 好事成双!华为鸿蒙OS重要时刻,两大巨头均宣布新消息
- 面对华为,台积电的态度有了新变化
- 华为荣耀|荣耀Magic Vs系列“黑科技”汇总!荣耀研发人员太强了
- “遮羞布”被撕碎?最新5G调查数据出炉,网友:华为4G手机还能活
- 华为nova 20 系列或搭载骁龙8+,新专利公开
- 耳机|融合怪来了,华为推出自带TWS耳机的智能手表
- 华为鸿蒙系统|国产手机为何死守安卓,却不愿加入华为鸿蒙?
- OPPO|高频PWM调光会不会成为手机好屏幕的一个标准?
- 华为mate|华为Mate Xs 2鸿蒙操作系统3.0全网推送更新,快来体验北斗卫星消息