CPU|如何突破存储与运算之间的“内存墙”,这项新技术给出了更具性价比的选择

CPU|如何突破存储与运算之间的“内存墙”,这项新技术给出了更具性价比的选择

文章图片


深度学习和人工智能的兴起 , 对数据运算的要求越来越高 。 最开始数据中心通过提高CPU、GPU的性能进而提高算力 , 在冯·诺伊曼架构中 , 计算单元要先从内存中读取数据 , 计算完成后 , 再存回内存 , 这样才能输出 。 由于半导体产业的发展和需求的差异 , 处理器和存储器二者之间走向了不同的工艺路线 。 由于处理器与存储器的工艺、封装、需求的不同 , 从1980年开始至今二者之间的性能差距越来越大 。 数据显示 , 从1980年到2000年 , 处理器和存储器的速度失配以每年50%的速率增加 。
存储器数据访问速度跟不上处理器的数据处理速度 , 数据传输就像处在一个巨大的漏斗之中 , 不管处理器灌进去多少 , 存储器都只能“细水长流” 。 两者之间数据交换通路窄以及由此引发的高能耗两大难题 , 在存储与运算之间筑起了一道“内存墙” 。
随着数据的爆炸增长 , 内存墙对于计算速度的影响正在显现 。 为了减小内存墙的影响 , 提升内存带宽一直是存储芯片关注的技术问题 。 黄仁勋曾表示计算性能扩展最大的弱点就是内存带宽 。 集成了大量的并行运算单元的处理器 , 如果内存带宽跟不上 , 无疑会成为整个运算的瓶颈 。
在过去的七年里 , GDDR5在业界发挥了重要作用 。 迄今为止 , 这项显存技术中的海量存储功能几乎应用在每个高性能显卡上 。 DDR的出现实现了在一个时钟周期内进行两次数据传输 , 从而使之前的标准SDR(单次数据传输)的性能提高了一倍 。
但是随着显卡芯片的快速发展 , 人们对快速传输信息的要求也在不断提高 。 GDDR5已经渐渐不能满足人们对带宽的需要 , 技术发展也已进入了瓶颈期 。 每秒增加1GB的带宽将会带来更多的功耗 , 这不论对于设计人员还是消费者来说都不是一个明智、高效或合算的选择 。 因此 , GDDR5将会渐渐阻碍显卡芯片性能的持续增长 。

凭借TSV方式 , 相对于GDDR , HBM技术可以提供更高的带宽 , 更高的性价比 。 GDDR技术需要将DRAM芯片直接放置在PCB上并散布在处理器周围 。 HBM位于GPU本身上 , 并且堆栈相互叠在一起 。 这种方法无疑更快 。
以目前国内在高带宽显存技术上做的比较好的芯动科技来看 , 他们的HBM已经能够提供7.2Gbps的HBM3和3.6Gbps的HBM2e , 基本对标国际最新标准 。 其最大技术优势就是在带宽最大化的重要改进 。

此外 , TSV技术可以在增加带宽的同时降低封装尺寸 , 同时降低功耗 。 在传统架构下 , 数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍 , 因此真正用于计算的能耗和时间占比很低 , 数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题 , 称为“功耗墙” 。
有研究指出 , 单个HBM2e设备的功耗几乎是GDDR6解决方案的一半 。 HBM2e能提供与GDDR6相同或更高的带宽和类似的容量 , 但功耗几乎GDDR6的一半 。 TOPS是在给定内存设备带宽的情况下衡量最大可实现吞吐量的指标 , 用于评估神经网络和数据密集型AI应用程序等应用程序的最佳吞吐量 。 HBM2e的设备的TOPS/W 比GDDR6技术的吞吐量增加了一倍 。
【CPU|如何突破存储与运算之间的“内存墙”,这项新技术给出了更具性价比的选择】在算力时代 , CPU、GPU性能总是技术关注的焦点 , HBM技术登台后 , 哪个技术会是储存行业的突破口呢?