研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习( 三 )


1. 当智能体域是专家域的刚性变换时,GWIL能否恢复最优行为?这是可以的,论文的作者们用迷宫证明了这一点。
2. 当智能体的状态和行动空间与专家不同时,GWIL能否恢复最优行为?这也是可以的,本篇论文中,作者们展示了倒立摆(cartpole)和钟摆(pendulum)之间轻微不同的状态-动作空间以及步行者(walker)和猎豹(cheetah)之间显著不同的空间。
为了回答这两个问题,研究人员使用了在 Mujoco 和 DeepMind 控制套件中实现的模拟连续控制任务。该学习策略的视频可在论文的项目网站上访问。在所有设置中,作者在dE和dA的专家和智能体空间中使用欧几里得度量。
学习策略地址:https://arnaudfickinger.github.io/gwil/

研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图
图注:给定钟摆域(上图)中的单个专家轨迹,GWIL 在没有任何外部奖励的情况下恢复智能体域(倒立摆,下图)中的最优行为。
研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图

图注:给定猎豹域(上图)中的单个专家轨迹,GWIL 恢复智能体域(步行者)中最优策略等距类的两个元素,向前移动是最优的(中间),向后移动是次优的(下图)。有趣的是,由此产生的步行者的行为就像一只猎豹。
研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图

雷峰网