不得不说|colossal-ai打破“内存墙限制”( 三 )


由于单个节点在数据存储和读写上的能力得到了强化 , 所需服务器的数量可以因此减少50% , 每集群的成本就可因此降低约30%[1] 。
而且 , 傲腾持久内存还有一个BUFF , 也在PayPal这个反欺诈应用场景里发挥了令人意想不到的作用 , 这就是数据持久性 , 能带来超快的数据和应用恢复速度 。
相比将主索引存入DRAM , 在计划或非计划的停机后还需要从存储设备中扫描数据并重建索引不同 , 将主索引存入傲腾持久内存并做持久化后 , 不论是意外宕机 , 还是计划中的停机 , 其数据都不会因为断电而消失 , 整个系统就可以用更快的速度恢复并重新联机 。
要问这个速度有多快?PayPal给出的答案是原先需要59分钟来重建索引 , 现在只需4分钟 。
PayPal还给出了一些更具整体视角 , 并从业务和最终应用功效切入的数据来说明它的收益:
它以2015年初步估计的50TB欺诈数据量和过去的内存系统为基准 , 发现基于傲腾持久内存的新方案 , 可帮助它将服务级别协议(SLA)遵守率从98.5%提升到99.95% 。
漏查的欺诈交易量 , 则降到原来的约1/30 , 整体服务器的占用空间可降至原来的约1/8(从1024减少到120台服务器) , 而其整体硬件成本可以降到原来的约1/3 。
考虑到预测的年数据增长率约为32% , PayPal的反欺诈系统完全可在新方案上实现经济高效的扩展 , 并让它继续保持99.95%的欺诈计算SLA遵守率、更短的数据恢复时间、更强的数据处理、查询性能和数据一致性以及高达99.99%的可用性 。
所以 , 像这种对数据库性能要求更高的推荐、在线评估类AI应用 , 利用CPU平台 , 特别是利用有AI加速能力的CPU+傲腾持久内存来打破内存墙 , 加速整体性能表现并降低成本确实是可行 , 而且也是能够负担得起的 。
如前文提及的 , 除了PayPal这样的全球型客户外 , 国内也有不少渴望打破内存墙的互联网企业、AI创业企业在他们类似的应用场景中尝试了傲腾持久内存 , 结果也是收获了内存子系统容量大幅扩展+数据和应用恢复用时显著缩短+硬件成本或TCO大降的多重功效 。
而且 , 能用上这套方案的还不止是这些场景 。
即使在AIforScience上 , 目前也有一些科研项目正尝试充分利用这套方案 , 来解决内存墙的问题 。
由DeepMind在2021年发布的AlphaFold2就算是一例 。
得益于加速蛋白质三维结构探究的定位 , 以及预测的高可信度 , AlphaFold2正在生命科学领域掀起颠覆式的变革 , 而它的成功秘诀 , 就在于利用深度学习方法进行蛋白质结构预测 , 这使它在效率、成本等方面远胜传统实验方法(包括X-ray衍射、冷冻电镜、NMR等) 。
因此 , 几乎所有生物学界的从业者都在着手这一技术的落地、管线搭建以及性能调优 。 英特尔也是其中一员 。 它结合自身架构的软硬件优势 , 对AlphaFold2算法进行了在CPU平台上的端到端高通量优化 , 并实现了比专用AI加速芯片还要出色的性能 。
取得这一成绩 , 既得益于第三代英特尔?至强?可扩展处理器内置的高位宽优势(AVX-512等) , 也离不开傲腾持久内存对“内存墙”的突破 。
一方面 , 在模型推理阶段 , 英特尔专家通过对注意力模块(attentionunit)进行大张量切分(tensorslicing) , 以及使用英特尔?oneAPI进行算子融合等优化方法提升了算法的计算效率和CPU处理器利用率 , 加快了并行推理速度 , 并缓解了算法执行中各个环节面临的内存瓶颈等问题 。
另一方面 , 傲腾持久内存的部署 , 也提供了TB级内存容量的“战略级”支持 , 能更轻松地解决多实例并行执行时内存峰值叠加的内存瓶颈 。