DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%( 二 )
在这个网络里 , 人类反馈的奖励草图也起到了很重要的作用 。
奖励草图简单来说就是人工给奖励值打分 。
如下图所示 , 图中上半部分就是人给出的草图 , 当下半部分的预测观察中有苹果的时候 , 奖励值就是1 , 如果苹果逐渐从视野中淡出 , 奖励就变成-1 。
文章图片
以此来调整奖励模型网络 。
3D版安全强化学习模型效果如何
接下来我们来看看新模型和其他模型以及Baseline的对比效果如何 。
结果如下图所示 , 不同的难度对应的是场景大小的不同 。
下图左边是智能体从悬崖摔下去的次数 , 右边是吃掉苹果的数量 。
文章图片
需要注意的是 , 图例中的ReQueST(ours)代表训练集中包含了人类提供错误路径的训练结果 。
而ReQueST(safe-only)代表训练集中只使用安全路径的训练结果 。
另外 , ReQueST(sparse)是不用奖励草图训练的结果 。
从中可以看出 , 虽然Model-free这条baseline吃掉了所有的苹果 , 但是牺牲了很多安全性 。
而ReQueST的智能体平均能吃掉三个苹果中的两个 , 并且跌落悬崖的数量只是baseline的十分之一 , 性能比较出众 。
从奖励模型的区别上来看 , 奖励草图训练的ReQueST和稀疏标签训练的ReQueST效果相差很大 。
稀疏标签训练的ReQueST平均一个苹果也吃不到 。
看来 , DeepMind和OpenAI抓的这两点确有改善之处 。
参考链接:
[1]https://www.arxiv-vanity.com/papers/2201.08102/[2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours
- AI可能初具意识?OpenAI首席科学家言论引争议,众大佬吵成一团
- 车迷看过来!网传的切尔西22/23赛季主场球衣&夹克&足球
- 万字长文!DeepMind科学家总结2021年的15个高能研究
- 联想|高效办公组合,华为二合一笔记本&智能打印机
- 音视频|a&s测评|紫光华智400万全彩警戒筒型网络摄像机
- deepmind|DeepMind“钓鱼执法”:让AI引诱AI说错话,发现数以万计危险言论
- ToC商家小程序常见问题&情景调研方法介绍
- 王茁&陈陶琦:给佰草集、戴森做品牌运营时,我们做对了哪些事?
- 安卓|安卓拒绝"短寿"!三星保证4代升级
- 本文转自:中国消费者报2月8日市场监管总局通报眼镜产品抽查不合格情况标称生产单位涉及“佳...|“H&M”“UR”等45批次眼镜产品抽查不合格