DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%
行早发自凹非寺
量子位|公众号QbitAI
DeepMind&OpenAI这回联手展示了一手安全强化学习模型的好活 。
他们把二维的安全RL模型ReQueST推向了更实用的3D场景中 。
要知道ReQueST原来只是应用在导航任务 , 2D赛车等二维任务中 , 从人类给出的安全轨迹中学习如何避免智能体“自残” 。
文章图片
原来ReQueST的二维导航任务(避开红色区域)和赛车任务
但是在实际的3D环境中问题更为复杂 , 例如执行任务的机器人需要在工作中避障 , 自动驾驶的汽车需要避免开到沟里去 。
但是在实际的3D环境中问题更为复杂 , 例如执行任务的机器人需要在工作中避障 , 自动驾驶的汽车需要避免开到沟里去 。
那么问题来了 , 用于2D任务的ReQueST在复杂的3D环境中还能行吗?在3D环境中人类给出的安全轨迹数据的质和量还能满足训练的需要吗?
针对这两个问题 , DeepMind和OpenAI拿出了更复杂的动力模型和融入了人类反馈的奖励模型 , 成功将ReQueST迁移到3D环境中 , 向应用推进了一步 。
并且安全性也有所提升 , 实验中智能体不安全行为数量减至baseline的十分之一 。
怎么能直观地感受一下?我们到模拟3D环境中看一看 。
文章图片
在上图的场景中 , 房间左上侧是一个悬崖 , 智能体需要在房间两侧指示灯绿色消失之前 , 尽量吃到三个苹果 。
其中一个苹果还需要踩按钮开门才能吃到 。
在展示的视频中 , 智能体踩住按钮 , 打开闸门 , 成功吃到被关住的苹果 , 一套操作行云流水 。
文章图片
我们来看看它是怎么做到的 。
3D版安全强化学习模型如何训练
在ReQueST的基础上 , DeepMind和OpenAI需要解决的问题就是适用于3D场景的动力模型和奖励模型 。
我们先从整体的流程上看一下这两者的角色 。
如下图所示 , 是新模型对于吃苹果任务的训练流程 。
文章图片
【DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%】浅蓝色框代表的是动力模型参与的步骤 。 从上面一排开始 , 由人提供一些安全的轨迹 , 避开红色的危险区域 。
根据这些训练出动力模型 , 然后用它生成一些随机的轨迹 。
接着到下面一排 , 让人类根据这些随机的轨迹 , 以奖励草图的方式提供反馈 , 再用这些奖励草图 , 训练初始的奖励模型 , 并依此不断地优化两者 。
接下来我们分别介绍这两个模型 。
这次DeepMind和OpenAI使用的动力模型使用LSTM依据动作序列和过去的图像观测预测未来的图像观测 。
模型和ReQueST中的类似 , 就是编码器网络和反卷积解码器网络更大了点 , 并使用真实图像观测和预测值的均方误差损失进行训练 。
最重要的是 , 这种损失建立在对每个步骤的未来多个步骤的预测上 , 从而使动力模型在长时间的部署中也能保持连贯性 。
得到的训练曲线如下图所示 , 横轴代表步数 , 纵轴代表损失 , 不同颜色的曲线代表不同量级的轨迹数量:
文章图片
此外 , 在奖励模型部分 , DeepMind和OpenAI训练了一个220万参数的11层残差卷积网络 。
输入为96x72的RGB图像 , 输出一个标量奖励预测 , 损失也是用均方误差 。
- AI可能初具意识?OpenAI首席科学家言论引争议,众大佬吵成一团
- 车迷看过来!网传的切尔西22/23赛季主场球衣&夹克&足球
- 万字长文!DeepMind科学家总结2021年的15个高能研究
- 联想|高效办公组合,华为二合一笔记本&智能打印机
- 音视频|a&s测评|紫光华智400万全彩警戒筒型网络摄像机
- deepmind|DeepMind“钓鱼执法”:让AI引诱AI说错话,发现数以万计危险言论
- ToC商家小程序常见问题&情景调研方法介绍
- 王茁&陈陶琦:给佰草集、戴森做品牌运营时,我们做对了哪些事?
- 安卓|安卓拒绝"短寿"!三星保证4代升级
- 本文转自:中国消费者报2月8日市场监管总局通报眼镜产品抽查不合格情况标称生产单位涉及“佳...|“H&M”“UR”等45批次眼镜产品抽查不合格