告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练( 三 )
人形物体(Humanoid)
文章图片
仿人环境有更多的自由度 , 需要智能体发现用两只脚保持平衡并在地面上行走的步态 。 从图4和图5可以看出 , 与图3中的蚂蚁相比 , 训练时间增加了一个数量级 。
文章图片
图4:人形实验的奖励和有效FPS与并行环境的数量有关 。 最佳训练时间是在4096个环境和32个horizonlength的情况下实现的 。
文章图片
图5:人形实验的奖励和有效FPS与平行环境的数量有关 。 在4096和8192个环境中实现了最佳训练时间 , horizonlength分别为64和32 。
研究人员在图中4还注意到 , 随着智能体数量的增加 , 从256个增加到4096个 , 达到最高奖励7000的训练时间从10^4秒(约2.7小时)减少到10^3秒(约17分钟)的数量级 。 然而 , 奖励为5000左右时 , 高性能运动出现了 , 训练时间仅为4分钟 。 在这种情况下 , 如果超过4096个环境 , 就不会有进一步的收益 , 实际上会导致训练时间的增加和收敛于次优步态 。 研究人员将此归因于环境的复杂性 , 这使得在如此小的horizonlength上学习行走具有挑战性 。
可以通过对另一组环境和horizonlength的组合进行训练来验证这一点 , 与图4相比 , horizonlength增加了2倍 。 如图5所示 , 即使在8192和16384环境中 , 人形机器人也能行走 , 这两个环境的horizonlength分别为32和16 , 但足够长 , 可以进行学习 。
另外值得注意的是 , 由于自由度的增加 , 每秒并行环境步骤的数量从蚂蚁的700K减少到人形的200K , 如图4和5所示 。
影子手(ShadowHand)
文章图片
文章图片
图6:ShadowHand实验的奖励和有效FPS与并行环境的数量有关 。 在8192和16384个环境以及16和8个horizonlength的情况下 , 达到最佳训练时间 。
最后 , 研究人员用影子手进行实验 , 让它学习用手指和手腕将放在手掌上的立方体旋转到目标方向 。 受所涉及的DoF数量和旋转过程中的接触影响 , 这项任务具有不小的挑战 。 我们在''影子手''环境中的结果也遵循类似的趋势 。 随着智能体数量的增加 , 在这种情况下 , 从256增加到16384 , 训练时间减少了一个数量级 , 从5×10^4秒(约14小时)到3×10^3秒(约1小时) 。 我们发现 , 该环境在短短5分钟内就达到了连续10次成功的奖励的灵巧性能 。 此外 , 16384个智能体的horizonlength为8 , 仍然允许学习重新摆放立方体 。 16384个智能体的最大有效帧率为每秒150K个并行环境步骤 。
文章图片
图7:运动环境和相应的奖励曲线
文章图片
文章图片
图8:在模拟和真实机器人上测试的粗糙地形上的ANYmal的训练策略
文章图片
图9:使用AMP训练的仿人角色模仿旋风踢的动作
文章图片
图10:FrankaCube堆叠环境和相应的奖励曲线
文章图片
图11:在IsaacGym中实现的三种手内操纵环境:ShadowHand,Trifinger和Allegro
- CPU|元宇宙+高端制造+人工智能!公司已投高科技超100亿,股价仅3元
- CPU|E5系列处理器——工作室和生产力专业处理器,小白请勿购买
- 苹果|从5499元跌至3399元,苹果A14+IP68防水,旧款iPhone加速清仓
- Linux|电脑城卖的CPU是intel而不是AMD,和实体店不喜欢卖小米手机是一个道理
- 文和友|泡泡玛特与飞书达成合作 新消费代表企业加速迁移飞书
- CPU|阿里反贪第一人蒋芳,入职23年将7名高层送入狱,连马云都可以查
- CPU|电脑硬件选购技巧之CPU散热,性价比干货,土豪回避
- CPU|性价比不二之选!i5-12400网游测试:已看见锐龙7 5800X尾灯
- 加速行业变革!比亚迪联手美国公司发布无人驾驶配送车
- 摩卡DHT-PHEV开启预售,魏牌全面加速智能混动赛道|新车