研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习
文章插图
跨域模仿学习研究的是如何利用一个智能体的专家演示来训练一个具有不同实施方式或形态的模仿智能体。比较专家智能体和模仿智能体之间的轨迹和平稳分布是具有挑战性的,因为它们生活在不同的系统中,甚至可能不具有相同的维数。
【 研究人员|如何让人模仿猎豹走路?Stuart Russell提出基于最优传输的跨域模仿学习】近日,来自加州大学伯克利分校人工智能实验室、伦敦大学学院和 Facebook AI 的研究人员在一篇论文 Cross-Domain Imitiation Learning via Optimal Transport 中提出了 Gromov-Wasserstein 模仿学习(GWIL),这是一种跨域模仿的方法,使用 Gromov-Wasserstein 距离来对齐和比较智能体不同空间之间的状态。
文章插图
但是,当前大多数的 IL 方法仅可以应用于最简单的设置,在这种设置中,专家和智能体共享相同的实施和转换动态,它们生活在相同的状态和动作空间。尤其是这些方法需要来自智能体域的专家演示。
因此,论文的研究人员重新考虑了 IL 的效用,因为它似乎只是将问题从设计信息性奖励迁移到提供专家演示,而不是解决问题。然而,如果放宽当前 IL 方法的约束设置,那么真正减轻工程量的自然模仿场景就会出现。事实上,不需要相同的动力学就能使智能体模仿不同形态的人类和机器人,从而广泛扩大 IL 的适用性,并减轻对域内专家演示的需求。
这种专家演示来自另一个域的宽松设置已成为更具现实假设意义的新兴领域,被称为跨域模仿学习。这些工作的一个共同策略是学习专家域和智能体域之间的映射。为此,它们需要访问智能体任务,在这些任务中,专家和智能体都在各自的域中发挥最优作用。在一定的结构假设下,该映射能够在保持最优性的前提下,将专家域内的轨迹转化为智能体域内的轨迹。虽然这些方法确实放宽了 IL 的典型设置,但对代理任务的要求严重限制了跨域 IL 的适用性。例如,它排除了模仿以前从未见过的专家以及转移到新机器人的可能性。
本篇论文中,研究人员放宽了跨域 IL 的假设,提出了一个不需要访问智能体任务的基准和方法。为此,研究人员脱离了先前工作的观点,将跨域 IL 形式化为最优传输问题,提出了一种Gromov-Wasserstein模仿学习方法(GWIL),该方法使用 Gromov-Wasserstein 距离来求解基准。研究者们论文里正式描述了 GWIL 保持最优性的场景,揭示了其可能性和局限性。实验表明,在非平凡连续控制设置中,GWIL通过一个单一的演示从另一个域学习最优行为,而不需要任何智能体任务。
- 小米科技|不聊性能只谈拍照!新旗舰反向升级成潮流,拍照手机如何选?
- 搜索引擎|淘宝运营系统出台春节打烊功能,淘宝运营商家该如何选择?
- 小米科技|RTX3060的性能到底如何?相比RTX2060提升有多大?
- 市值超 1.7 万亿的Netflix是如何做决策的?
- 腾讯|前腾讯员工爆料:鹅厂的末位淘汰制让人心理崩溃!
- QQ音乐的2021专辑盘点,是如何征服资深乐迷的
- 饭饭1080°平台分析之生鲜电商平台如何选择ERP系统和SAAS系统
- 在2021大中华区艾菲国际论坛上|玛雅文化施葵:新消费时代,如何助力品牌跑出“破圈”加速度?
- 布局潮范多元化圈层 看MAZDA3昂克赛拉如何玩出花样?
- 原标题:月背工作满三年|月背工作三年 嫦娥四号如何做到超服期役?专家回应