告别CPU，加速100-1000倍！只用GPU就能完成物理模拟和强化学习训练( 四 ) 编译|王晔校对|青暮IsaacGym由英

文章图片
图12：在IsaacGym中实现的三种手内操纵环境的奖励曲线。这些结果是通过（a）采用OpenAI观察和LSTM的ShadowHand（b）采用OpenAI观察和前馈网络的ShadowHand（c）采用标准观察的ShadowHand（d）采用标准观察的AllegroHand获得的。 ShadowHandOpenAI是用不对称的actor-critic和领域随机化训练的，而ShadowHand标准和AllegroHand标准是用标准观察和对称的actor-critic训练的，没有领域随机化。

文章图片
图13：（a）采用OpenAI观察和LSTM的ShadowHand ，（b）采用OpenAI观察和前馈网络的ShadowHand（c）采用标准观察的ShadowHand（d）采用标准观察的AllegroHand ，每集的连续成功率。 ShadowHandStandard和AllegroHandStandard都使用前馈网络来实现策略和价值功能。

文章图片
图14：Trifinger学习了各种灵巧的操纵行为，能够将立方体移动到正确的位置和方向。
3总结
【告别CPU，加速100-1000倍！只用GPU就能完成物理模拟和强化学习训练】研究表明， IsaacGym是一个高性能和高仿真的平台，可以在单个NVIDIAA100GPU上对许多具有挑战性的模拟机器人环境进行快速训练，而以前使用传统的RL设置和纯CPU的模拟器则需要大型异构集群的CPU和GPU 。此外，模拟后端也适用于学习具有接触的操作，这一点在我们用ANYmal运动和TriFinger立方体摆放进行的模拟到真实的迁移演示中得到了证实。