不得不说|colossal-ai打破“内存墙限制”( 二 )


GPU平台直接“借内存” , 并不是一种很高效的选择(不然大伙儿都去堆内存条了)——
与CPU相比 , GPU平台的内存可扩展性其实没那么高、也不具备L1-L3高速缓存 。 数据在CPU与GPU之间交换走的PCIe接口效率也要低一些 。
对于那些对时延更敏感的AI应用场景来说 , 是否存在一种更合适的解决方案?
用CPU方案打破内存墙 , 可行吗?
要问行不行 , 还得先看有没有 。
从业界来看 , 确实已经有不少公司开始基于CPU平台搭建一些AI项目 , 其中一些如个性化推荐、基于AI的实时决策系统等 , 都属于“对时延非常敏感”的决策型AI 。
而决策型AI , 正是深受内存墙困扰的“受害者”之一——
不是因为模型参数量大 , 而是因为模型对数据库的要求高 。
与其他训练完直接投入使用的AI不同 , 决策型AI必须每天从现实环境中获取新鲜数据 , 将决策变得更“精准” , 这需要大量的低时延数据交互 。
因此 , 背后的数据库也需要具备大规模并发读写、实时性强、可扩展等特性 。
在这种情况下 , 如何充分利用内存来加速数据读写 , 反而成为了比提升算力更加困扰AI的问题 。
不得不说|colossal-ai打破“内存墙限制”
文章图片
那么 , 这些企业究竟是如何在CPU平台上解决内存墙问题的呢?
以曾经在全球引领了在线支付服务潮流 , 如今依然处于该领域C位的PayPal为例 。
PayPal的业务如今已经涵盖了在线转账、计费和支付 , 并且客户规模已经达到了200多个市场的超3.25亿消费者和商家 , 所以它也像传统的银行服务一样 , 面临严峻的欺诈挑战 。
PayPal的应对策略 , 就是打造了一个具备实时识别新出现欺诈模式能力的实时决策系统 。
不过欺诈者也在不断改变欺诈模式 , 或发掘新的方式来对抗该系统 , 因此 , PayPal需要不断提升新型欺诈检测的准确性 , 并且需要尽可能地缩短欺诈检测时间 。
在这种类似猫鼠游戏 , 比谁反应更快、谁能更灵活应变的对抗中 , 起到关键作用的就是数据的快速处理及读写 。
为了实时识别新出现的欺诈模式 , PayPal需要更快地处理和分析更多数据 , 就需要将尽可能大体量的数据与实时处理做更好的对接 。
然而 , 内存墙的问题 , 在此时也悄然出现了 。
PayPal发现 , 自己要应对的是平台多年来收集的数百PB数据 , 随着其反欺诈决策平台数据量的逐年增长 , 主索引的规模也在不断扩张 , 以至于几乎要拖垮其数据库 , 特别是承载这些数据的各节点的内存容量一旦耗尽 , 反欺诈的效率就会大打折扣 , 实时性也就无从谈起 。
于是 , PayPal开始考虑采用新的内存和存储技术 , 来突破内存墙 , 换言之 , 提升其数据库方案的整体存储密度 。
恰逢其会 , PayPal于2015年开始主要采用来自Aerospike的数据库技术 , 而后者正是最早支持英特尔?傲腾?持久内存的数据库厂商之一 。 其创新的混合内存架构(HybridMemoryArchitecture , HMA)经过优化 , 可以帮助PayPal将体量越来越大的主索引存入傲腾持久内存而非DRAM中 , 内存墙难题就此破局 。
不得不说|colossal-ai打破“内存墙限制”
文章图片
最终的试验结果 , 也验证了傲腾持久内存在打破内存墙、提升整个数据库容量和性能方面的价值:
在PayPal现有共计2,000台Aerospike服务器中 , 有200台已导入了这款持久内存 , 结果每节点的存储空间提升到了原来的约4倍 , 且保持了应用的极速反应和低时延 。
随内存和存储容量增大而来的 , 还有成本上的大幅节省 , 据PayPal和Aerospike进行的基准测试: