不得不说|colossal-ai打破“内存墙限制”( 四 )


这个瓶颈有多大?据英特尔技术专家介绍:在输入长度为765aa的条件下 , 64个实例并行执行时 , 内存容量的需求就会突破2TB 。 在这种情形下 , 对用户而言 , 使用傲腾持久内存也是他们目前真正可行的方案 。
下一步:异构芯片 , 统一内存
当然 , 从整个行业的发展态势来看 , CPU搭配大容量持久内存的方案 , 也并非就能一劳永逸地解决“内存墙”的问题 。
它同样也只是众多解决方案中的一种 。
那么 , 是否还有其他针对内存墙的方案 , 既不像存算一体芯片那般遥远 , 但又比CPU+持久内存的用途更全面、更多样呢?
答案或许就是异构芯片+统一内存的路子了 。
不得不说|colossal-ai打破“内存墙限制”
文章图片
这里的异构芯片 , 指的可不仅仅是CPU和GPU , 还包括有FPGA和ASIC等同样能为AI计算提供加速的芯片类型 。 随着芯粒(Chiplet)技术的发展 , 异构计算或许能为打破内存墙提供新的可能性 。
目前 , 芯粒互联互通的开放标准UCIe(UniversalChipletInterconnectExpress)已获得大量芯片行业玩家认可 , 有望成为主流标准 。
不得不说|colossal-ai打破“内存墙限制”】这个标准的牵头者英特尔自己就在积极布局XPU战略 , 把标量(CPU)、矢量(GPU)、矩阵(ASIC)和空间(FPGA)等不同类型和架构芯片的多样化算力组合在一起 。
最近能看到的一项成果便是美国阿贡国家实验室的下一代超算系统——极光(Aurora) 。
极光超算的CPU将采用代号为SapphireRapids的第四代英特尔?至强?可扩展处理器 , 并搭配代号为PonteVecchio的英特尔?数据中心GPU , 双精度峰值计算性能超过每秒两百亿亿次 , 能支持更准确的气候预测以及发现应对癌症的新疗法等研发创新活动 。
这还是目前可见的进展 。 在UCIe的支持下 , 未来还有可能出现不同架构、甚至不同工艺制程的IP封装成为一块SoC芯片的全新物种 。
不得不说|colossal-ai打破“内存墙限制”
文章图片
伴随异构芯片的协作甚至是异构芯粒的整合 , 不同芯片和芯粒所搭配的内存也很可能出现统一或池化的趋势 。
其中一个可能的实现途径 , 就是通过光学I/O来连接不同芯片、芯粒、内存等组件 , 即用光信号代替电信号做芯片间的通信 , 可以做到更高带宽、更低时延和更低功率 。
例如 , 光学I/O方面的创新企业AyarLabs , 目前已经被各大芯片巨头和高性能计算供应商所看好 。
在最新一轮1.3亿美元的融资中 , 它的投资方就包括了英特尔、英伟达、格芯和HPE 。
或许 , 距离内存“大一统”的时代真的不远了 。
在这种情况下 , 持久内存本身也正在迎来更多的机会 。
例如 , 傲腾持久内存目前已实现单条512GB的容量 , 单条1TB容量的型号也正在筹备中 。
如果要真正高效地扩展异构系统的统一内存池 , 它所具备的多重优势是不可忽略的 。