苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%( 二 )
文章图片
南栖仙策使用四台M1的Macmini组建了小型集群
AppleM1集群性能测试
测试设置:
M1(单机):使用M1Macmini单机训练;
M1集群(4机):4台M1Macmini组成集群进行训练;
GPU服务器(单机V100×1):使用NVIDIAV100单GPU训练 , 选择第一张卡;
GPU服务器(单机V100×4):单机使用四块NVIDIAV100进行分布式训练;
CPU服务器:使用V100服务器的CPU进行训练 。
环境:Pendulum、MountainCarCont、HalfCheetah
算法:PPO,共采集100次数据进行PPO训练 , 每次训练前与环境交互采集10Kstep的轨迹放入Buffer进行训练 。 SAC,训练100个Epoch , 每个Epoch与环境交互收集1kstep放入Buffer 。
测试结果:
由于目前Tensorflow2.4的Eager模式不能调用M1芯片进行训练 , 下面的结果是在Macmini的CPU设备上测试获得的 。
测试一:单进程采样对比
文章图片
测试二:4进程采样对比
文章图片
测试三:16进程采样对比
文章图片
测试四:32进程采样对比
文章图片
功耗及价格对比:
文章图片
注:单个Macmini功耗39w , 4台总计156w(瓦) , 传统服务器约为1300w(瓦) 。
文章图片
注:单个Macmini价格6799元(512GB官网价格) , 4个总计2.7万元 , 传统服务器约为30万元 。
【苹果M1更适合强化学习?相比V100性能提升200%,价格低90%,功耗减88%】M1的共享内存架构适合于RL的训练方式 , 目前 , 使用Apple的M1芯片组建的小型服务器 , 以NVIDIAGPU服务器10%的价格和更低的功耗 , 取得超过200%的时间效率提升 。 在强化学习目前主流训练框架下 , 训练效率的瓶颈往往在于策略网络的通信速度不够快 , 而共享内存方案可以减小通信上的开销 , 为RL训练带来巨大的效率提升 。
- 苹果|库克压力确实大,在众多国产厂家对标下,iPhone13迎来“真香价”!
- 苹果|iPhone 14普及高刷:全系支持120Hz
- 京东|适合过年送长辈的数码好物,好用不贵+大牌保障,最后一个太实用
- 苹果|国内首款支持苹果HomeKit的智能门锁发布:iPhone一碰即开门
- 高通骁龙|首批骁龙8旗舰谁更值得买?懂行人带你客观分析每台新机亮点
- 苹果|苹果最巅峰产品就是8,之后的产品,多少都有出现问题
- 苹果|最具性价比的苹果手机来了,降价2120元,iPhone12已跌至冰点价
- 苹果|马化腾称,腾讯只是一家普通公司,这是谦虚说法还是有所顾虑?
- 为了你的iPhone能磁吸充电,苹果又花了5亿买材料
- 蓝思科技|苹果与34家中国供应商断绝合作,央视呼吁:尽快摆脱对苹果依赖