CPU|如何突破存储与运算之间的“内存墙”，这项新技术给出了更具性价比的选择存储器|芯片|GDDR6

文章图片

深度学习和人工智能的兴起，对数据运算的要求越来越高。最开始数据中心通过提高CPU、GPU的性能进而提高算力，在冯·诺伊曼架构中，计算单元要先从内存中读取数据，计算完成后，再存回内存，这样才能输出。由于半导体产业的发展和需求的差异，处理器和存储器二者之间走向了不同的工艺路线。由于处理器与存储器的工艺、封装、需求的不同，从1980年开始至今二者之间的性能差距越来越大。数据显示，从1980年到2000年，处理器和存储器的速度失配以每年50%的速率增加。
存储器数据访问速度跟不上处理器的数据处理速度，数据传输就像处在一个巨大的漏斗之中，不管处理器灌进去多少，存储器都只能“细水长流” 。两者之间数据交换通路窄以及由此引发的高能耗两大难题，在存储与运算之间筑起了一道“内存墙” 。
随着数据的爆炸增长，内存墙对于计算速度的影响正在显现。为了减小内存墙的影响，提升内存带宽一直是存储芯片关注的技术问题。黄仁勋曾表示计算性能扩展最大的弱点就是内存带宽。集成了大量的并行运算单元的处理器，如果内存带宽跟不上，无疑会成为整个运算的瓶颈。
在过去的七年里， GDDR5在业界发挥了重要作用。迄今为止，这项显存技术中的海量存储功能几乎应用在每个高性能显卡上。 DDR的出现实现了在一个时钟周期内进行两次数据传输，从而使之前的标准SDR（单次数据传输）的性能提高了一倍。
但是随着显卡芯片的快速发展，人们对快速传输信息的要求也在不断提高。 GDDR5已经渐渐不能满足人们对带宽的需要，技术发展也已进入了瓶颈期。每秒增加1GB的带宽将会带来更多的功耗，这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择。因此， GDDR5将会渐渐阻碍显卡芯片性能的持续增长。

凭借TSV方式，相对于GDDR ， HBM技术可以提供更高的带宽，更高的性价比。 GDDR技术需要将DRAM芯片直接放置在PCB上并散布在处理器周围。 HBM位于GPU本身上，并且堆栈相互叠在一起。这种方法无疑更快。
以目前国内在高带宽显存技术上做的比较好的芯动科技来看，他们的HBM已经能够提供7.2Gbps的HBM3和3.6Gbps的HBM2e ，基本对标国际最新标准。其最大技术优势就是在带宽最大化的重要改进。

此外， TSV技术可以在增加带宽的同时降低封装尺寸，同时降低功耗。在传统架构下，数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍，因此真正用于计算的能耗和时间占比很低，数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题，称为“功耗墙” 。
有研究指出，单个HBM2e设备的功耗几乎是GDDR6解决方案的一半。 HBM2e能提供与GDDR6相同或更高的带宽和类似的容量，但功耗几乎GDDR6的一半。 TOPS是在给定内存设备带宽的情况下衡量最大可实现吞吐量的指标，用于评估神经网络和数据密集型AI应用程序等应用程序的最佳吞吐量。 HBM2e的设备的TOPS/W 比GDDR6技术的吞吐量增加了一倍。
【CPU|如何突破存储与运算之间的“内存墙”，这项新技术给出了更具性价比的选择】在算力时代， CPU、GPU性能总是技术关注的焦点， HBM技术登台后，哪个技术会是储存行业的突破口呢？