【芯视野】智能芯片2.0:多元异构下的算力“缝合怪”( 二 )


对于智能芯片2.0时代CPU的进化 , 孙文剑认为 , 实现端、边、云混合智能计算 , 要看到决定CPU的性能有三大因素:40%来自于制程;40%来自设计以及系统层面的优化 , CPU架构发挥重要作用;20%来自于软硬件协同的优化以及算力的智能分配 。
以往摩尔定律充分推动了制程的进步 , 但随着新制程节点成熟周期变长、成本增加显著 , 孙文剑直言 , CPU系统性能提升不能仅依赖于制程进步 , 还要更多在另外的60%层面发力 。
对于DPU的进化 , 冯翔直接从X、Y、Z三大方向进行了剖析 。
“最原始的网卡处在原点的位置 , X轴是其在狭义的网络数据处理功能上的迭代 , Y轴则是在新的数据中心网络架构中对数据和控制层面工作的软件定义和虚拟化工作的进阶 , Z轴则真正涉及到业务层面上 。 ”冯翔道出了其间的原委 。
他进一步详细解释道 , “目前的DPU还处在X与Y方面的融合 , 而即未来将实现的Z轴的融合 , 实现超融合架构 , 未来理想的DPU将是多矩阵、多元化、软硬兼顾、可软硬件编程灵活性的 。 ”
围绕GPU , 业界意识到尽管目前GPU可在图形、AI、通用计算领域充分发挥优势 , 但这三者目前是处于分裂的状态 。
如何“分”而治之?吕坚平认为 , 在这一过程中 , 对图形的优化往往会导致AI的缺失 , 对AI的优化往往也会影响图形的优化 。 但图形渲染本身可微分之后 , 也可变成AI的一部分 。 因而通用GPU的进化之路是如何开发图形并兼顾通用计算 。
基于通用GPU是一款基于DSA思路设计的产品 , 吕坚平进一步分析 , 首先 , 实现DSA通用化将可发挥通过GPU的优势 , 即将DSA算力迭代融入通用GPU算力池 , 既可提升效能 , 又能维持通用及可编程性 。 其次 , 通过图形计算化来跨接先进图形 , 从而让图形充分利用算力并大幅减少图形专用硬件 。 最后 , 通过硬件微分化来促进AI图形的融合 , 即将图形硬件可微分 , 使其融入实现AI算法的计算图谱 , 将图形渲染纳入AI问题解决典范 , 从而大幅促进AI与图形的融合 。
生态
无论如何进化 , 但万变不离其宗:脱离了生态将注定是无源之水 。 正如孙文剑所言 , 高端芯片绕不开的壁垒就是生态 , 一个成功的高端芯片必须要融入到大的生态当中才能成功 。
相应地 , CPU的落地一定要在整个生态圈中结合着不同的操作系统、应用程序才能真正提供价值 。
孙文剑强调 , 端侧业界看到安卓、Windows等等都全力支持Arm向上走 , 如今年2月微软建立了WindowsonArm工作组 , 5月推出了端到端的WindowsonArm工具链 , 在操作系统和硬件的合力支撑之下这一生态会快速崛起 。 国内操作系统如统信、麒麟、鸿蒙等也在全力支持ArmCPU的发展 , ArmCPU在端侧走到了一个历史变革的窗口期 。
从数据中心角度考量 , 孙文剑建议CPU厂商要与云服务厂商进行紧密的结合 , 不断完善云程序在CPU上无缝的链接和调度 。
基于ArmCPU有不同的生态 , 孙文剑还提议要走点线面的共赢之路:“一个CPU厂商很难缔造一个生态 , 希望与CPU的生态合作伙伴把手紧紧握在一起 , 组成一条线 , 织成一个面 , 合作共赢 , 优势互补 , 迎接更加波澜壮阔的智能计算2.0时代的到来 。 ”
值得注意的是 , 传统的x86架构、兴起的RISC-V架构以及国内走自主核架构的CPU阵营各有拥趸 , 亦各有所成 , 未来的比拼将围绕性能、生态和应用全面展开 。
谈及生态 , 中兴通讯硬件专家贺小龙表达的观点是云边端是一个持续发展、不断协同的过程 , 他们是共生共融的 , 生态在这一过程中也要良性循环协同发展 。