AMD|别笑“胶水多核”:单芯处理器快走到尽头了( 二 )


Bassi 指出,英伟达可能特别不愿意参与 。该公司已经开放了自己的用于定制硅集成的 NVLink-C2C 互连,使其成为 UCIe 的潜在竞争对手 。
但是,虽然 UCIe 和 NVLink-C2C 等互连的命运将决定游戏规则,但它们不太可能改变正在玩的游戏 。
Apple 的 M1 Ultra 可以被视为煤矿中的金丝雀 。多芯片设计不再仅限于数据中心——它正在出现在您附近的家用计算机上 。
3D芯片的三种方法
几年来,片上系统的开发人员已经开始将他们越来越大的设计分解成更小的小芯片,并将它们在同一个封装内链接在一起,以有效增加硅面积及其他优势 。在 CPU 中,这些链接大多是所谓的 2.5D,其中小芯片彼此并排设置,并使用短而密集的互连连接 。
由于大多数主要制造商已就 2.5D 小芯片到小芯片通信标准达成一致,这种集成的势头可能只会增长 。
但是,要像在同一个芯片上一样将真正大量的数据传输出去,您需要更短、更密集的连接,而这只能通过将一个芯片堆叠在另一个芯片上来实现 。面对面连接两个芯片可能意味着每平方毫米有数千个连接 。
它需要大量的创新才能使其发挥作用 。工程师必须弄清楚如何防止堆栈中一个芯片的热量杀死另一个芯片,决定哪些功能应该去哪里以及应该如何制造,防止偶尔出现的坏小芯片导致大量昂贵的哑系统,并处理随之而来的是一次解决所有这些问题的复杂性 。
以下是三个示例,从相当简单到令人困惑的复杂,展示了 3D 堆叠现在的位置:
AMD 的 Zen 3
AMD 的 3D V-Cache 技术将一个 64 兆字节的 SRAM 缓存 [红色] 和两个空白结构小芯片连接到 Zen 3 计算小芯片上 。
长期以来,PC 都提供了添加更多内存的选项,从而为超大型应用程序和数据繁重的工作提供更快的速度 。由于 3D 芯片堆叠,AMD 的下一代 CPU 小芯片也提供了该选项 。当然,这不是售后市场的附加组件,但如果您正在寻找具有更多魅力的计算机,那么订购具有超大缓存内存的处理器可能是您的选择 。
尽管Zen 2和新的Zen 3处理器内核都使用相同的台积电制造工艺制造——因此具有相同尺寸的晶体管、互连和其他一切——AMD 进行了如此多的架构改动,这让他们即使没有额外的高速缓存的前提下,Zen 3也能平均提供 19% 的性能提升 。
其中一个架构瑰宝是包含一组硅通孔 (TSV),垂直互连直接穿过大部分硅 。TSV 构建在 Zen 3 的最高级别缓存中,即称为 L3 的 SRAM 块,它位于计算小芯片的中间,并在其所有八个内核之间共享 。
在用于数据繁重工作负载的处理器中,Zen 3 晶圆的背面被减薄,直到 TSV 暴露出来 。然后使用所谓的混合键合将一个 64 兆字节的 SRAM 小芯片键合到那些暴露的 TSV 上——这一过程类似于将铜冷焊在一起 。
结果是一组密集的连接可以紧密到 9 微米 。最后,为了结构稳定性和热传导,附加空白硅芯片以覆盖 Zen 3 CPU 芯片的其余部分 。
通过将额外的内存设置在 CPU 芯片旁边来添加额外的内存不是一种选择,因为数据需要很长时间才能到达处理器内核 。“尽管 L3 [缓存] 大小增加了三倍,但 3D V-Cache 仅增加了四个 [时钟] 周期的延迟——这只能通过 3D 堆叠来实现,” AMD 高级设计工程师 John Wuu表示 。
更大的缓存在高端游戏中占有一席之地 。使用台式机锐龙 CPU 和 3D V-Cache 可将 1080p 的游戏速度平均提高 15% 。它也适用于更严肃的工作,将困难的半导体设计计算的运行时间缩短了 66% 。
Wuu 指出,与缩小逻辑的能力相比,业界缩小 SRAM 的能力正在放缓 。因此,您可以预期未来的 SRAM 扩展包将继续使用更成熟的制造工艺制造,而计算芯片则被推向摩尔定律的前沿 。