苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%( 二 )


苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
南栖仙策使用四台M1的Macmini组建了小型集群
AppleM1集群性能测试
测试设置:
M1(单机):使用M1Macmini单机训练;
M1集群(4机):4台M1Macmini组成集群进行训练;
GPU服务器(单机V100×1):使用NVIDIAV100单GPU训练 , 选择第一张卡;
GPU服务器(单机V100×4):单机使用四块NVIDIAV100进行分布式训练;
CPU服务器:使用V100服务器的CPU进行训练 。
环境:Pendulum、MountainCarCont、HalfCheetah
算法:PPO,共采集100次数据进行PPO训练 , 每次训练前与环境交互采集10Kstep的轨迹放入Buffer进行训练 。 SAC,训练100个Epoch , 每个Epoch与环境交互收集1kstep放入Buffer 。
测试结果:
由于目前Tensorflow2.4的Eager模式不能调用M1芯片进行训练 , 下面的结果是在Macmini的CPU设备上测试获得的 。
测试一:单进程采样对比
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
测试二:4进程采样对比
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
测试三:16进程采样对比
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
测试四:32进程采样对比
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
功耗及价格对比:
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
注:单个Macmini功耗39w , 4台总计156w(瓦) , 传统服务器约为1300w(瓦) 。
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%
文章图片
注:单个Macmini价格6799元(512GB官网价格) , 4个总计2.7万元 , 传统服务器约为30万元 。
苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%】M1的共享内存架构适合于RL的训练方式 , 目前 , 使用Apple的M1芯片组建的小型服务器 , 以NVIDIAGPU服务器10%的价格和更低的功耗 , 取得超过200%的时间效率提升 。 在强化学习目前主流训练框架下 , 训练效率的瓶颈往往在于策略网络的通信速度不够快 , 而共享内存方案可以减小通信上的开销 , 为RL训练带来巨大的效率提升 。