|对话天翼云:DPU重在“平衡”( 二 )


有些厂商的技术方案已经更换过好几次了 , 因为对真实需求和技术演进没有把控到位 , 这样带来的损失其实也很大 , 方案的反复就意味着资金的浪费 , 无形中就会淘汰一些厂商 。
如何实现在硬件整体架构上或者技术交互基本不变的情况下 , 不断提升性能 , 这也是大家初期都采用FPGA的原因 , 可编程特性可以减少试错成本 。
TechForWhat:如何看待DPU行业目前的发展态势?
刘禄仁:实话说 , 目前DPU还处于百花齐放的阶段 , 不管是什么技术路线 , 没有哪家可以凭借一己之力 , 实现技术能力和需求完美契合 , 完成事实上的统一 。
另外 , 做DPU最主要的还是看自己的目标场景和目标客户在哪里 , 天翼云自研紫金DPU主要是从天翼云本身业务及未来架构演进出发 , 解决我们数据中心的痛点问题 , 暂时没有去考虑外部客户的定制化需求 。
对于国外的那种芯片大厂来说 , 肯定是想做一个通用的DPU , 它的目标客户就是国内外的云计算大厂 , 当然不局限于云厂 , 一些金融领域等场景也可以用到 。 他们对架构和需求的理解 , 相对于国内厂商走的比较靠前 , 英特尔、迈络思等已经走在ASIC化的路上 , 或者实现了ASIC化 。
对于国内众多初创厂商来说 , 也是有不同路线 , 实现类似DPU芯片或者功能 , 但是目标客户或者目标场景是有侧重点的 。
未来DPU大规模上量肯定是ASIC化的 , 从功耗、成本还有性能等方面 , 对于云厂商来说应该是最优解 , 当然要达到ASIC化 , 目标场景业务要成熟 。
TechForWhat:天翼云DPU实现了哪些成果?
刘禄仁:我们从2020年开始注意到DPU , 组建了自己的DPU团队 , 然后在不到一年的时间里面 , 就基于DPU推出了弹性裸金属服务器 , 具备物理级别的资源隔离 , 也具备云主机的弹性灵活特性 , 通过将网络、存储等这些功能卸载到DPU卡上 , 它的算力远超了普通云主机 。
在高性能网络方面 , 我们已经完成了传输层大规模组网相关算法 , 目前正朝着商用级别的稳定性努力 。 在天翼云 , DPU的相关软硬件并不是以整体打包的形态大规模上线 , 像弹性裸金属服务器 , 现在已经发展到3.0阶段 。 大规模上量的话 , 天翼云应该会在2024年开始发力 , 明年会逐渐上一些量 。
行业内大部分ASIC化芯片或者成熟方案 , 真正可以达到商业测试阶段 , 有可能会在明年Q1 , 从测试到产品大规模落地 , 正常有一年到两年的时间 。 天翼云和业界DPU规模化使用 , 节奏基本一致 。
TechForWhat:DPU目前尚待解决的问题还有哪些?
刘禄仁:云厂商对DPU的诉求就是健壮性、稳定性和自动化运维 , 目前从这方面来看 , 行业能力参差不齐 , 大家也是想大力提升这方面的能力 , 从真正技术角度而言 , 其实DPU技术并没有绝对的技术难题 , 更多是一些平衡点 。
不管是ASIC还是FPGA , 大家需要更强大的功能 , 更高的规格 , 就会要求芯片更大 , 资源更多 , 那么功能越多 , 性能规格越高 , 它带来的健壮性或者可靠性相对来说会偏低 。 这就类似于我们DPU分布式迭代的方式 , 它也是从“平衡”维度来推出产品的 。
当然仅从技术角度来说 , 其实还是不够的 , DPU目前更多在数据中心使用 , 它与资源池的构建相关 , DPU、服务器又跟整体设计有关系 , 它就会与整体的物理网络是联动策略 。 我们不能只从DPU芯片内部去做考虑 , 需要从整个网络链做综合的考虑 , 然后决定DPU该如何推出具体的功能和规格 。
End
【|对话天翼云:DPU重在“平衡”】