ARM|深度解读ARM新架构:大核进取、小核摆烂?( 二 )



不仅如此 , 作为ARM的全新旗舰GPU产品 , Immortalis-G715更是首次引入了硬件光线追踪单元 。 根据ARM方面的说法 , 硬件光追单元在GPU核心中仅占据了4%的面积 , 但其相比Mali-G710采用的软件光追设计却能够带来300%以上的性能提升 。 考虑到真正支持Mali-G710光追效果的游戏至今尚未上市 , 所以ARM的这番表述属实是“背刺”自己了 。
架构分析:大核更大、中核做减法 , 小核原地踏步
【ARM|深度解读ARM新架构:大核进取、小核摆烂?】讲完了新架构的性能参数变化 , 接下来我们就进入按惯例的架构分析环节 , 来看看ARM到底是如何实现这些改进的 。
首先是全新的大核Cortex-X3 , 它的改动无疑是此次新架构中最大的 。 其包括了比前代大10倍的L0 BTB(分支目标缓冲区)和大50%的L1 BTB , 这意味着大幅提高的分支预测性能 。 根据官方的说法 , Cortex-X3的分支预测延迟降低了12.2% , 预测错误率降低了6% , 同时减少了3%的前段停顿 。 由于分支预测性能大为提升 , 因此Cortex-X3的mop(微操作)缓存现在可以做得更小 , 同时流水线长度也进一步下降 。

这还没完 , 与Cortex-X2相比 , Cortex-X3的指令缓存提取宽度现在从5增加到了6、算术逻辑单元从4个增加到了6个 , 同时乱序窗口也进一步增大 。 而在后端部分 , 新架构的加载/存储宽度也增加了50% , 并增多了数据预取引擎的数量 。
更强的分支预测性能 , 更宽的执行窗口、更短的流水线级别 , 更快的存取速度 , 有没有觉得很眼熟?没错 , 这个改进方向 , 其实就是多年前已被Intel从奔腾4到酷睿的革新时 , 所证明的有效路径 , 只不过ARM如今将其在RISC处理器上“复刻”了一遍 。



相比于Cortex-X3的锐意进取 , Cortex-A715与(新版)Cortex-A510的改变就相对没有那么大了 。 其中 , Cortex-A715的改进主要来自于放弃对32位指令集的支持 , 从而大幅简化了指令解码器的设计 , 空出更多的晶体管位置来提高了缓存大小 。 而Cortex-A510的变化则更是语焉不详 , 现在只知道它具备了可选的32位支持、同时功耗略微下降而已 。

与CPU部分(特别是大核心)的改动相比 , ARM此次的新GPU变化显得就不是那么显著了 。 一方面 , 无论是Immortalis-G715、Mali-G715 , 还是Mali-G615 , 它们其实都是共享的相同架构设计(只是Immortalis-G715内部多了硬件光追电路) , 主要区别还是在于核心数量上做了明确限制 。
另一方面 , 与现有的Mali-G710相比 , 新款GPU在基础架构上将FMA乘加单元的数量翻了一倍 , 设计了用于抗锯齿的新型FP16计算单元 。 同时根据ARM方面的说法 , 新的GPU“在重负载场景下”的三角形生成率为现有的3倍 , 纹理映射速度是现有的2倍 。 不过 , 暂时还并不清楚这个倍数是来自底层架构的改进 , 还是来自于核心数量或频率的提升 , 因此仅仅做个参考就好 。 真正的GPU性能提升幅度 , 还得等到实际产品上市后才能有定论 。
市场分析:ARM笔记本或将兴起 , 入门手机也有望翻身
值得一提的是 , 在发布新一代产品线的同时 , ARM还给自家的软硬件方案起了一个新的名字 , 叫做“Arm Total Compute Solutions(直译为ARM整体计算解决方案)2022” , 缩写为ARM TCS22 。 同时 , ARM方面也将去年发布的上代架构随之“整合”为ARM TCS21 , 并同时预告了明年(TCS23)和后年(TCS24)的产品命名 。

这意味着什么呢?从这个举动中 , 我们至少可以挖掘出两条信息点 。 一是ARM似乎并不打算用新架构完全取代上一代的产品线 , Cortex-X2、A710和A510得到“重命名”或意味着它们的授权还将继续 。