DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%( 二 )


在这个网络里 , 人类反馈的奖励草图也起到了很重要的作用 。
奖励草图简单来说就是人工给奖励值打分 。
如下图所示 , 图中上半部分就是人给出的草图 , 当下半部分的预测观察中有苹果的时候 , 奖励值就是1 , 如果苹果逐渐从视野中淡出 , 奖励就变成-1 。
DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%
文章图片
以此来调整奖励模型网络 。
3D版安全强化学习模型效果如何
接下来我们来看看新模型和其他模型以及Baseline的对比效果如何 。
结果如下图所示 , 不同的难度对应的是场景大小的不同 。
下图左边是智能体从悬崖摔下去的次数 , 右边是吃掉苹果的数量 。
DeepMind&OpenAI推出3D版安全强化学习模型,「跳崖」行为减至10%
文章图片
需要注意的是 , 图例中的ReQueST(ours)代表训练集中包含了人类提供错误路径的训练结果 。
而ReQueST(safe-only)代表训练集中只使用安全路径的训练结果 。
另外 , ReQueST(sparse)是不用奖励草图训练的结果 。
从中可以看出 , 虽然Model-free这条baseline吃掉了所有的苹果 , 但是牺牲了很多安全性 。
而ReQueST的智能体平均能吃掉三个苹果中的两个 , 并且跌落悬崖的数量只是baseline的十分之一 , 性能比较出众 。
从奖励模型的区别上来看 , 奖励草图训练的ReQueST和稀疏标签训练的ReQueST效果相差很大 。
稀疏标签训练的ReQueST平均一个苹果也吃不到 。
看来 , DeepMind和OpenAI抓的这两点确有改善之处 。
参考链接:
[1]https://www.arxiv-vanity.com/papers/2201.08102/[2]https://deepmind.com/blog/article/learning-human-objectives-by-evaluating-hypothetical-behaviours