CPU处理器|600亿晶体管突破7nm极限！全球首款3D晶圆级封装IPU诞生 7nm|晶圆|600亿晶体管|突破7nm极

总部位于英国的AI芯片公司Graphcore发布了新一代IPU产品Bow，这是其第三代IPU系统，发布即面向客户发货。
与上一代IPU相比，Bow IPU性能提升40% ，能耗比提升了16%，电源效率也提升16% 。
值得注意的是，这一次Bow IPU的性能提升并非主要依赖采用更先进的制程，Bow IPU采用了和上一代IPU相同的台积电 7nm，通过采用和台积电共同开发的先进硅晶圆堆叠技术（3D Wafer-on-Wafer）达到性能和能耗比的提升。
Bow作为世界首款3D WoW处理器，证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。

文章图片

新一代 IPU 性能提升40%，价格保持不变
2016年，Graphcore成立并开创了全新类型处理器架构IPU，因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次革命。
经历6年时间的发展，Graphcore的IPU逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四，Graphcore又推出了第三代产品Bow IPU 。
据Graphcore介绍，第三代IPU相对于上一代M2000，性能提高40%，每瓦性能提升16%，即能耗比实现16%的提升。
不过，AI芯片的真实性能还需要放在不同的应用领域中讨论。为此，Graphcore也给出了在不同垂直领域中Bow的性能表现。

文章图片

在图像方面，无论是典型的CNN网络，还是近期比较热门的Vision Transformer网络，以及深层次的文本到图片的网络，与上一代产品相比，Bow IPU都有30%到40%的性能提升，在EfficientNet-B4这一项中，接近理论上限值。
BERT训练模型是自然语言方面的经典模型，基于BERT，OpenAI提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展，通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。
“我们可以看到，这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore中国工程副总裁、AI算法科学家金琛介绍道。

文章图片

不仅如此，转换到实际模型中的吞吐量，与IPU POD64相比，在计算机视觉的ResNet50 和 EifficientNet-B4 训练模型中，Bow Pod64的吞吐量能够达到34%和39%的性能提升。
自然语言方面，BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型，后者都有36%的吞吐量提升。

文章图片

作为英伟达的竞争对手，Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比，实验数据表明，EfficientNet-B4的backbone的训练在DGX-A100上需要花费70个小时的训练时间，而在Bow Pod16上，只需要14小时左右。
接近理论极限的性能提升，Graphcore Bow IPU是如何实现的？
【CPU处理器|600亿晶体管突破7nm极限！全球首款3D晶圆级封装IPU诞生】5nm不再是首选，采用先进封装性价比更高
从芯片的规格上看，Bow IPU是世界上第一款基于台积电的 3D Wafer-On-Wafer的处理器，单个封装中拥有超过600亿个晶体管，具有350 TeraFLOPS的人工智能计算的性能，是上一代MK2 IPU的1.4倍。
片内存储较上一代来看没有变化，依然保持0.9GB的容量，不过吞吐量从47.5TB提高到了65TB 。

CPU处理器|600亿晶体管 突破7nm极限！全球首款3D晶圆级封装IPU诞生

CPU处理器|600亿晶体管突破7nm极限！全球首款3D晶圆级封装IPU诞生