苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开

在当下的半导体行业中,Chiplet(芯粒)设计已经成为行业主流,推动Chiplet发展的AMD获益良多 。
苹果在3月9日的发布会上推出自研的M1 Ultra芯片,通过UltraFusion架构将两个M1 Max芯片拼在一起,使芯片的各项硬件指标翻倍,性能也得到大幅提升 。
苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开
文章图片

性能方面,苹果M1 Ultra支持128GB高带宽、低延迟的统一内存,内建20个CPU核心、64个GPU核心和32核神经网络引擎,每秒可提供高达22万亿次运算,其GPU性能是苹果M1芯片的8倍,比最新的16核PC台式机高90% 。
苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开
文章图片

早在2021年10月的M1 Max中使用了UltraFusion技术,但直到M1 Ultra发布会上才正式公开 。
【苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开】UltraFusion架构使用硅中介层(Silicon Interposer)和微型凸块(Micro-Bump),将芯片连接信号超过10000个,提供2.5TB/s超高处理器间带宽和低延迟 。
UltraFusion的互联带宽其他多芯片互连技术的4倍多,领先于由英特尔、AMD、ARM、台积电和三星等众多行业巨头组成的通用芯粒互连联盟(UCIe) 。
苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开
文章图片

根据苹果公司和台积电已发表的专利和论文,从2.5D/3D互连和技术层面解析UltraFusion封装架构 。
最近几年,随着摩尔定律的逐渐放缓,新的“摩尔定律2.0”开始被芯片厂商接受,摩尔定律2.0的核心,就是封装技术,让芯片封装从传统的2.5D升级到3D,这新技术包括了英特尔Foveros、台积电的3D晶圆键合(wafer-on-wafer)等 。
苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开
文章图片

从M1 Ultra发布的UltraFusion图示可以看到,苹果M1 Ultra应该是采用台积电基于第五代CoWoS Chiplet技术的互连架构 。
Chip-on-Wafer-on-Substrate with Si interposer(CoWoS-S)是一种基于TSV的多芯片集成技术,广泛应用于高性能计算(HPC)和人工智能(AI)加速器领域 。
随着CoWoS技术的进步,可制造的中介层(Interposer)面积稳步增加,全掩模版尺寸及户翻了一番,从大约830mm2提升至1700mm2,中介层面积的增加,会让封装后的芯片的面积加大 。
台积电第5代CoWoS-S达到最多三个全光罩尺寸(大约2500mm2)的水平,通过双路光刻拼接方法,让硅中介层可容纳1200mm2的多个逻辑芯粒和八个HBM(高带宽内存)堆栈,芯粒与硅中介层的采用面对面(互连层与互连层对接)的连接方式 。
在UltraFusion技术中,通过CoWo-S5的裸片缝合(Die Stitching)技术,可将4个掩模版拼接来扩大中介层的面积 。
这种方法可让4个掩模被同时曝光,并在单个芯片中生成四个缝合的“边缘” 。苹果公司的专利还提到,UltraFusion技术的片间互连可以是单层金属、也可以是多层金属 。
苹果M1|苹果M1 Ultra为何能实现性能翻倍?背后真相揭开
文章图片

UltraFusion不仅是简单的物理连接结构,封装架构中还有6项特别优化过的技术 。
第一项就是在UltraFusion芯片中,加入新的低RC(电容x电阻=传输延迟)金属层,它能够在毫米互连尺度上提供更好的片间信号完整性 。
与传统的多芯片模块(MCM)等封装解决方案相比,UltraFusion的中介层在逻辑芯粒之间或逻辑芯粒和存储器堆栈之间提供密集且短的金属互连 。拥有片间完整性更好、能耗更低,同时还能以更高的频率运行 。