为高性能业务上云扫清障碍！云原生超级计算如何做到？( 二 ) 芯东西（公众号：aichip001）作

文章图片
云原生超级计算技术是通过提升性能来减少硬件设备需求，从而实现降低功耗。如果一个数据中心的业务可以通过更少的硬件设备来完成，这是最佳的降低功耗的方式。或者在同样的投资前提下，用户可以获得更多的算力资源。
二、核心技术拆解，已应用于微软公有云Azure
用DPU做加速和通信，操作其实非常简单。
让Host发一个通知到DPU上， DPU收到通知后就和远端DPU进行沟通，然后可直接在本地HostMemory和远端HostMemory建立通信通道，实现数据之间的传递。整个通信过程中，所有操作都由DPUAPP监视，不需要CPU参与， CPU只是发出通知，等到DPU收到通知以后去执行。

文章图片
用DPU加速或卸载通信，可在一些业务实现非常不错的性能提升。例如分子动力学模型的应用已实现20%的性能提升，数据建模应用场景可实现将26%的性能提升，天气预告模型实现了大约24%的性能提升。
云原生超级计算离不开的交换机计算SHARP技术，这是迄今为止英伟达独有的技术，在交换机上可进行数据的Aggregation和Reduction ，消除网络拥塞，突破网络物理带宽的限制。

文章图片
使用SHARP ，可将Reduce通信带宽实现1倍的提升。基于NVIDIASuperPod参考架构， 8张200GBInfiniBand的卡，总共聚合带宽是200GB总带宽，用Sharp技术后，实际测到的带宽性能可达到230GB~260GB 。

文章图片
NVIDIA网络亚太区高级总监宋庆春认为，当前云服务之所以难以普及，一大难题便是有些业务在云上没法保障运行效率，可能会受到云上其他业务的影响。而借助性能隔离技术，有望在云上实现和在单独机器上跑业务达到一样的高性能。
这在微软公有云Azure上已得到验证和应用：蓝色曲线是单独机器独立只跑一个业务时的性能表现， 0.6~0.7时间段做了多次迭代计算；而将同样的业务放在云上时，如果没有性能隔离技术，云上往往还在跑一些别的业务，会对关键业务造成一些影响，在中间绿色曲线图上，可以看到0.6~0.8时间段，迭代次数远低于在单独机器上跑业务的迭代次数。

文章图片
如果把性能隔离技术用到同种应用，可以看到Azure两条线是重叠的，虚线是在一个平台上只跑一个业务，实线是在云上跑多个业务，启用性能隔离技术即可实现两条线的重叠，即在云上跑关键业务的时候能得到同样的性能保障。
除此之外，网络计算还有非常广泛的范畴及应用场景，包括如何点对点通信加速、保障网络不间断、让网络自动修复等。
三、DPU中国黑客松竞赛回顾：SDIC团队获得一等奖
NVIDIA网络技术专家崔岩对2022年秋季NVIDIADPU中国黑客松竞赛的赛事进行回顾，并分享了最终竞赛结果。
2022年秋季NVIDIADPU中国黑客松竞赛从8月开始筹备， 9月12日官方招募，总共有27支团队注册， 10月19日面向参赛队伍和中国DOCA社区开发者举行了黑客松训练营，共吸引3500人参与、上万人次的观看， 10月22日正式开赛，比赛时间为24小时， 13支团队入选最终竞赛，总共有51位开发者、6位女性开发者，其中既有企业开发者也有学校学生开发者。
本届和上届的题目稍有区别，英伟达BlueFieldDPU和DOCA软件框架是云原生超级计算架构里是一个关键组成部分，所以在这24小时比赛中，参赛团队被要求围绕使用BlueFieldDPU和DOCA实现RDMA加速存储与AI的解决方案。