告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练( 四 )


告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练
文章图片
图12:在IsaacGym中实现的三种手内操纵环境的奖励曲线 。 这些结果是通过(a)采用OpenAI观察和LSTM的ShadowHand(b)采用OpenAI观察和前馈网络的ShadowHand(c)采用标准观察的ShadowHand(d)采用标准观察的AllegroHand获得的 。 ShadowHandOpenAI是用不对称的actor-critic和领域随机化训练的 , 而ShadowHand标准和AllegroHand标准是用标准观察和对称的actor-critic训练的 , 没有领域随机化 。
告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练
文章图片
图13:(a)采用OpenAI观察和LSTM的ShadowHand , (b)采用OpenAI观察和前馈网络的ShadowHand(c)采用标准观察的ShadowHand(d)采用标准观察的AllegroHand , 每集的连续成功率 。 ShadowHandStandard和AllegroHandStandard都使用前馈网络来实现策略和价值功能 。
告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练
文章图片
图14:Trifinger学习了各种灵巧的操纵行为 , 能够将立方体移动到正确的位置和方向 。
3总结
告别CPU,加速100-1000倍!只用GPU就能完成物理模拟和强化学习训练】研究表明 , IsaacGym是一个高性能和高仿真的平台 , 可以在单个NVIDIAA100GPU上对许多具有挑战性的模拟机器人环境进行快速训练 , 而以前使用传统的RL设置和纯CPU的模拟器则需要大型异构集群的CPU和GPU 。 此外 , 模拟后端也适用于学习具有接触的操作 , 这一点在我们用ANYmal运动和TriFinger立方体摆放进行的模拟到真实的迁移演示中得到了证实 。