AMD|别笑“胶水多核”:单芯处理器快走到尽头了( 三 )


Graphcore 的 Bow AI 处理器
即使堆栈中的一个芯片上没有单个晶体管,3D 集成也可以加快计算速度 。总部位于英国的 AI 计算机公司Graphcore仅通过在其 AI 处理器上安装供电芯片,就大幅提高了其系统性能 。添加供电硅意味着名为 Bow 的组合芯片可以运行得更快(1.85 GHz 与 1.35 GHz 相比),并且电压低于其前身 。
与上一代相比,这意味着计算机训练神经网络的速度提高了 40%,能耗降低了 16% 。重要的是,用户无需更改其软件即可获得这种改进 。
电源管理芯片由电容器和硅通孔组合而成 。后者只是为处理器芯片提供电力和数据 。真正与众不同的是电容器 。与 DRAM 中的位存储组件一样,这些电容器形成在硅中又深又窄的沟槽中 。由于这些电荷储存器非常靠近处理器的晶体管,因此功率传输变得平滑,从而使处理器内核能够在较低电压下更快地运行 。
如果没有供电芯片,处理器必须将其工作电压提高到高于其标称水平才能在 1.85 GHz 下工作,从而消耗更多的功率 。使用电源芯片,它也可以达到该时钟频率并消耗更少的功率 。
用于制造BoW的制造工艺是独一无二的,但不太可能保持这种状态 。大多数 3D 堆叠是通过将一个小芯片粘合到另一个小芯片上来完成的,而其中一个仍然在晶圆上,称为晶圆上芯片 [参见上面的“AMD 的 Zen 3”] 。
相反,Bow 使用了台积电的晶圆对晶圆,其中一种类型的整个晶圆与另一种类型的整个晶圆键合,然后切割成芯片 。Graphcore 首席技术官Simon Knowles表示,这是市场上第一款使用该技术的芯片,它使两个裸片之间的连接密度高于使用晶圆上芯片工艺所能达到的密度 。
尽管供电小芯片没有晶体管,但它们可能会出现 。Knowles 说,仅将这项技术用于供电“对我们来说只是第一步” 。“在不久的将来,它会走得更远 。”
英特尔的 Ponte Vecchio 超级计算机芯片
Aurora 超级计算机旨在成为 美国 首批突破 exaflop障碍的高性能计算机 (HPC)之一——每秒进行 10 亿次高精度浮点计算 。为了让 Aurora 达到这些高度,英特尔的 Ponte Vecchio 将 47 块硅片上的超过 1000 亿个晶体管封装到一个处理器中 。英特尔同时使用 2.5D 和 3D 技术,将 3,100 平方毫米的硅片(几乎等于四个Nvidia A100 GPU )压缩成 2,330 平方毫米的占地面积 。
英特尔研究员 Wilfred Gomes告诉参加IEEE 国际固态电路会议的工程师,该处理器将英特尔的 2D 和 3D 小芯片集成技术推向了极限 。
每个 Ponte Vecchio 都是使用英特尔 2.5D 集成技术 Co-EMIB 捆绑在一起的两个 镜像小芯片集 。Co-EMIB 在两个 3D 小芯片堆栈之间形成高密度互连的桥梁 。桥本身是嵌入封装有机基板中的一小块硅 。硅上的互连线的密度可以是有机衬底上的两倍 。
Co-EMIB 管芯还将高带宽内存和 I/O 小芯片连接到“基础块”,这是堆叠其余部分的最大小芯片 。
基础tile使用英特尔的 3D 堆叠技术,称为 Foveros,在其上堆叠计算和缓存小芯片 。该技术在两个芯片之间建立了密集的芯片到芯片垂直连接阵列 。这些连接可以是 36 微米,除了短铜柱和焊料微凸块 。信号和电源通过硅通孔进入这个堆栈 ,相当宽的垂直互连直接穿过大部分硅 。
八个计算tile、四个缓存tile和八个用于从处理器散热的空白“热”tile都连接到基础tile 。基础本身提供缓存内存和允许任何计算块访问任何内存的网络 。
不用说,这一切都不容易 。Gomes 说,它在良率管理、时钟电路、热调节和功率传输方面进行了创新 。例如,英特尔工程师选择为处理器提供高于正常电压(1.8 伏)的电压,以便电流足够低以简化封装 。