微软发布预训练的类人控制模型库MoCapAct,助力人工仿人控制的高级研究( 二 )
文章图片
MoCapAct数据集旨在与高度流行的dm_control类人仿真环境和广泛的CMU运动捕捉数据集兼容 , 并以两种方式服务于研究社区:对于来自CMU运动捕捉数据集的2500多个MoCap剪辑片段中的每一个 , 它提供了一个RL训练的“expert”控制策略(表示为PyTorch模型) , 使得dm_control的类人机器人能够忠实地再现剪辑片段中描述的技能:对于上述每一个训练过的技能策略 , MoCapAct提供了一组记录的轨迹 , 而所述轨迹是通过在dm_control的类人代理执行技能的控制策略生成 。 轨迹可以认为是训练有素的expertMoCap片段 。 但它与原始MoCap数据的一个关键区别是 , 它们既包含low-level感官测量 , 又包含拟人智能体的控制信号 。 与典型的MoCap数据不同 , 所述轨迹适合于通过直接模仿学习匹配和提高技能 。 这是一种比RL更有效的技术 。
团队给出了两个如何使用MoCapAct数据集的示例 。
首先 , 他们训练基于神经概率运动基元的分层策略 。 为了实现这一点 , 研究人员将数千个MoCapAct的剪辑专用策略组合到一个能够执行多种不同技能的单一策略中 。 代理具有一个将MoCap帧作为输入并输出学习的技能的high-level组件 。 low-level组件则将人形机器人学习的技能和感觉测量作为输入 , 并输出运动动作 。
文章图片
这种分层结构提供了一个重要的好处 。 如果保留low-level组件 , 他们可以通过向low-level策略输入不同的技能来控制仿人机器人 。 因此 , 可以重新使用low-level策略来有效地学习新任务 。
文章图片
有鉴于此 , 他们用任务策略取代high-level策略 , 然后对任务策略进行训练 , 以引导low-level策略实现特定任务 。 下面是一个示例 。 请注意 , 人形机器人使用了一系列的low-level技能 , 如跑步、转弯和侧步 。
文章图片
第二个示例以动作完成为中心 , 这是受sentencecompletion任务的启发 。 这里 , 研究人员使用GPT架构 , 它接受一系列感官测量并输出一个运动动作 。 他们训练一种控制策略 , 从数据集中获取一秒钟的感觉测量 , 并从expert那里输出相应的运动动作 。 然后 , 在对人形机器人执行策略之前 , 首先通过执行expert一秒钟来生成“提示”(视频中的红色人形机器人) 。
之后 , 令策略在每个时间步控制人形机器人(视频中的青铜人形机器人) , 它不断地进行前一秒的感官测量并预测运动动作 。 团队发现 , 所述策略可以可靠地重复剪辑片段的基本运动 。 相关论文:MoCapAct:AMulti-TaskDatasetforSimulatedHumanoidControl
除了数据集 , 团队同时发布了用于生成策略和结果的代码 。 更多信息请访问相关官网 。 返回搜狐 , 查看更多
【微软发布预训练的类人控制模型库MoCapAct,助力人工仿人控制的高级研究】责任编辑:
- wi-fi|华为发布第三代FTTR产品星光F30系列 家庭Wi-Fi速率进入2Gbps时代
- iPhone|6699元起!iPhone线下预售价曝光,一半价格选国产旗舰不香吗?
- Google|华为发布会正式向谷歌宣战了?
- 米家|米家太阳能板100W开启定金预售!随晒随充约3.1kg
- 华为mate|华为Mate50系列反向保密营销,把悬念都留在发布会,效果出奇地好
- 大批重磅新品来袭!一文看透华为Mate 50系列新品发布会
- 华为Mate 50系列发布,网友:看来硬刚苹果是没有希望了
- 酷睿处理器|英特尔13代酷睿处理器阵容全曝光 首批月底发布,定价或遇难题
- 4nm加持!高通发布骁龙6 Gen1芯片:AI性能增加3倍
- 黑科技|Mate50 Pro发布:骁龙8+和多项黑科技,推荐3款下半年换机必看机型