spec|KubeDL HostNetwork:加速分布式训练通信效率( 三 )



我们以 Tensorflow 作为主机网络的例子 , 因为它的 Cluster Spec 复杂性更具代表性 , 但 KubeDL 的内置工作负载(如 PyTorch , XGBoost 等)我们也都针对其框架的行为实现了对应主机网络模式的网络拓扑设置 。
总结 KubeDL 通过扩展现有的分布式训练作业标准容器网络通信模式 , 实现了基于原生主机网络的通信模式 , 在常见训练场景下获得网络性能增益的同时 , 也完美适应了 RDMA/SCC 等高性能网络架构的环境 , 助力分布式训练作业运行效率的大幅提升 , 这一通信模式已经在阿里巴巴内部的生产集群中广泛使用 , 比如达摩院在云栖大会最新发布的 AliceMind 超大模型就是通过 KubeDL 主机网络+RDMA 在高性能计算集群中训练的产物 。 我们期待更多开发者参与 KubeDL 社区的建设 , 一起优化深度学习工作负载的调度及运行时效率!
作者:陈裘凯( 求索)
本文为阿里云原创内容 , 未经允许不得转载 。