大禹智芯王昕溥:从DPU看DSA发展 | GAIR 2021( 二 )


但仍然有一些无法实现成功硬件化的例子 , 比如说TCP/IP协议 。 其实 , 有不少人在做TCP/IP协议硬件化方案——TOE方案 , 但因为方案无法固定下来 , 一直没有在这方面形成潮流 。 一方面是因为TCP/IP协议的复杂度 , 而主因则在于人们还在不停地改善它 , 甚至想要推翻它 。
芯片领域和计算机架构体系有很多定律在说类似的事情 。 比如说贝尔定律——每隔十年就有一波新技术的创新;牧村定律——每隔十年芯片的研发都会在标准化和定制化之间波动 。 而我们今天还面临一些更复杂的情况 , 例如国产化的浪潮 , 这也是几十年的机遇 , 在这个过程中 , 需要我们更多地自主掌握关键技术 , 共同推进国产化浪潮的前进 。
之前我分享的例子 , 在当时对业界产生了一定的影响 。 最直接的影响是专用设备开始退出互联网公司的IDC市场 , 转向专注于服务银行和企事业单位 , 并且在2019年进行软件服务转型 。 OpenSSL库的patch被社区所接受 , 变成专用的加密算法offload接口 , 芯片厂商也继续丰富和增加它的性能 , 现在已经不是专门的芯片和板卡 , 而是被集成在CPU里面 , 逐渐变得通用化 。
为此 , 对于专用领域芯片 , 我们认为有几个未来的发展方向:
一是从实际需求出发 , 由场景使用方的客户提出定制需求 , 芯片等硬件厂商按照客户需求定义、设计和生产芯片 , 加快芯片商业化落地的速度;作为客户来说 , 只要能够符合需求 , 就一定会投入使用 , 这对硬件研发来讲是一个很大的保证 。
更多内容↓↓↓二是重视软件 , 发展生态 。 从正面说 , 因为我们进行了大量的软件开发工作 , 才能够将硬件使用起来 。 从反面来讲 , 没有软件研发能力 , 即使已经有了成功案例 , 仍然可能没办法使用一些专用的芯片或者硬件 。
三是现在做专用领域芯片都会面临的问题 , 是适用面定义宽窄之间的选择 。 以FPGA为例 , 互联网公司曾经设有大规模团队做FPGA优化AI算法 , 但市面推出新的GPU后 , 团队就被解散了 , 这也是专用领域芯片面临的一个典型问题:因为应用领域比较窄 , 可能技术红利期短 , 可能整体的效益少 , 也可能还赶不上研发投入 , 最后没有实现大规模应用 。
对DPU的一些思考大禹智芯王昕溥:从DPU看DSA发展 | GAIR 2021
文章图片
而说了以上几点后 , 接下来我讲一下大禹智芯为什么要做DPU 。 DPU是非常新的东西 , 它是专注于对流动数据进行处理的芯片 。 大禹智芯成立于去年6月份 , 当初下决心做DPU的时候 , 听说和了解DPU的人还很少 。 作为云计算出身的团队 , 我们是国内最早尝试DPU产品的一批人 , DPU厂商定义芯片的时候都跟我们进行了很多的探讨 。 但当我们拿到产品后发现使用效果远未达到预期甚至不可用 , 主要原因就是上面定义的软件架构是硬件公司想象出来的客户需求 , 不是我们想要的 。
鉴于上述过往的经历 , 大禹智芯选择从使用者的角度 , 从上到下定义DPU产品 , 缺少什么环节就补足什么环节 , 缺少软件就做软件 , 缺少硬件就做板卡 , 如果没有合适的芯片就定义合适的芯片 。 因此 , 在我们自研芯片还没有出来之前就推出了两代的自研DPU产品 , 通过这两代产品为芯片定义积累场景和经验 , 同时为不同场景用户的使用创造和提供价值 。
另外 , DPU的关键还在于软件 。 作为硬件 , 它对软件的依赖要超过很多硬件产品 。 DPU不同于如网卡的硬件 , 后者驱动对上就能用 , 上层的事情都被驱动和协议栈操作系统屏蔽掉 。 而DPU会承载用户大量的业务需求 , 如云计算方面的网络虚拟化、存储虚拟化、对服务器的管理和安全管控等任务 , 所以DPU对软件要求很高 。