Intel 12代酷睿大小核架构探秘:小核性能暴涨80%

上回书说到 , IntelAlderLake12代酷睿将采用全新的大小核混合架构设计 , 其中大核/性能核(P-Core)基于GoldenCove架构 , 最多8个 , 小核/能效核(E-Core)基于Gracemont架构 , 最多也是8个 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
两种架构的核心有何差异?一年一度的架构日活动上 , Intel终于揭开了它们的神秘面纱 。
当然 , CPU架构设计是极为高深的 , 一般人把握不了 , 也无需研究太多 , 我们这里大致过一下最关键的一些技术点 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
GoldenCove是此前10代酷睿SunnyCove、11代酷睿移动版WillowCove、11代酷睿桌面版CypressCove的进一步升级版 , 但变化非常大 , 大量基础模块都重构或升级 , 其设计理念也将影响未来多代产品的演化 。
负责指令拾取和解码的前端部分 , 就发生了翻天覆地的变化 , 号称近十年来的最大变革 , 堪比当年的Skylake , 官方称它旨在提高速度、突破低时延和单线程应用程序性能的限制 。
最直接、最明显的就是解码器宽度由4个升级为6个 , 这可是x86架构的第一次 , 同时每时钟周期执行uop从6个增至8个 , 解码长度从16字节翻番至32字节 。 ?op缓存、队列也都大大强化 , 缓存可达4K , 队列每线程可处理72条目 , 单线程达144个 。
编码预取大大增强 , 分支目标从5K增至12K , 4KiTLB、2K/4MiTLB分别翻番至256、32 , 同时改进了分支预测精度 , 编码预取机制更加智能 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
乱序引擎部分 , 同样更宽、更深、更智能 , 分配由5路增至6路 , 执行端口由10个增至12个 , 调度器尺寸增大 , 重排序缓冲区(ROB)从352条目增至512条目 , 两倍多于AMDZen3 , 仅次于苹果M1(大约630条目) , 重命名和分配阶段也可以执行更多指令 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
整数执行引擎部分 , 增加了第五个整数执行端口 , 所有五个端口都可以执行ALU、LEA , 理论上就原生ALU吞吐能力而言是最宽的x86内核 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
矢量执行引擎部分 , 增加了新的快速加法器(FADD) , 比传统FMA单元效率更高、延迟更低 , FMA单元则增加支持FP16浮点数据类型 , 属于AVX-512指令集的一部分 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
载入和存储部分 , 通过载入AGU增加了一个专用的执行端口 , 这样载入端口从2个增至3个 , 同时载入缓冲和存储缓冲更深 , 载入延迟更低 , 而针对当今负载不断增加的内存级并行需求 , 数据处理能力也大大增加 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
二级缓存 , 桌面和移动端每核心还是1.25MB , 服务器端的SapphireRapids则增加到2MB , 并支持多路径预取、全写入预测带宽优化 , 可减少内存读取 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片
Intel宣称 , GoldenCove架构相比于现在11代酷睿桌面上的CypressCove , 实现了平均大约19%的IPC(每时钟周期指令数)提升 , 可以理解为同频性能的提升幅度 。
它还支持AMX高级矩阵扩展指令 , 内置下一代AI加速技术 , 用于学习推理和训练 , 包括专用硬件和新指令集架构 , 可明显提高矩阵乘法运算 。
Intel 12代酷睿大小核架构探秘:小核性能暴涨80%
文章图片