PyTorch深度学习实战 | 强化学习( 二 )
文章图片
■图1.8强化学习的4个元素
3
●
特征
(1)没有监督者 , 只有一个反馈信号 。
(2)反馈是延迟的 , 不是立即生成的 。
(3)强化学习是序列学习 , 时间在强化学习中具有重要的意义 。
(4)agent的行为会影响以后所有的决策 。
2
强化学习算法简介
强化学习主要可以分为Model-Free(无模型的)和Model-Based(有模型的)两大类 。 Model-Free算法又分成基于概率的和基于价值的 。
1
●
Model-Free和Model-Based
如果agent不需要去理解或计算出环境模型 , 算法就是Model-Free的;相应地 , 如果需要计算出环境模型 , 那么算法就是Model-Based的 。 实际应用中 , 研究者通常用如下方法进行判断:在agent执行它的动作之前 , 它是否能对下一步的状态和反馈做出预测?如果可以 , 那么就是Model-Based方法;如果不能 , 即为Model-Free方法 。
两种方法各有优劣 。 Model-Based方法中 , agent可以根据模型预测下一步的结果 , 并提前规划行动路径 。 但真实模型和学习到的模型是有误差的 , 这种误差会导致agent虽然在模型中表现很好 , 但是在真实环境中可能达不到预期结果 。 Model-Free的算法看似随意 , 但这恰好更易于研究者们去实现和调整 。
2
●
基于概率的算法和基于价值的算法
基于概率的算法是指直接输出下一步要采取的各种动作的概率,然后根据概率采取行动 。 每种动作都有可能被选中,只是可能性不同 。 基于概率的算法的代表算法为policy-gradient , 而基于价值的算法输出的则是所有动作的价值,然后根据最高价值来选择动作 。 相比基于概率的方法,基于价值的决策部分更为死板——只选价值最高的 , 而基于概率的,即使某个动作的概率最高,但是还是不一定会选到它 。 基于价值的算法的代表算法为Q-Learning 。
3
强化学习的应用
1
●
交互性检索
交互性检索是在检索用户不能构建良好的检索式(关键词)的情况下 , 通过与检索平台交流互动并不断修改检索式 , 从而获得较准确检索结果的过程 。
当用户想要搜索一个竞选演讲(Wu&Lee,INTERSPEECH16)时 , 他不能提供直接的关键词 , 其交互性搜索过程如图1.9所示 。 在交互性检索中 , 机器作为agent , 在不断的尝试中(提供给用户可能的问题答案)接受来自用户的反馈(对答案的判断) , 最终找到符合要求的结果 。
2
●
新闻推荐
新闻推荐 , 如图1.10所示 。 一次完整的推荐过程包含以下过程:一个用户单击App底部刷新或者下拉 , 后台获取到用户请求 , 并根据用户的标签召回候选新闻 , 推荐引擎则对候选新闻进行排序 , 最终给用户推出10条新闻 。 如此往复 , 直到用户关闭App , 停止浏览新闻 。 将用户持续浏览新闻的推荐过程看成一个决策过程 , 就可以通过强化学习学习每一次推荐的最佳策略 , 从而使得用户从开始打开App到关闭App这段时间内的点击量最高 。
文章图片
■图1.9交互性检索
文章图片
■图1.10新闻推荐
在此例中 , 推荐引擎作为agent , 通过连续的行动即推送10篇新闻 , 获取来自用户的反馈 , 即单击:如果用户浏览了新闻 , 则为正反馈 , 否则为负反馈 , 从中学习出奖励最高(点击量最高)的策略 。
- 大脑|新研究:“记忆闪存法”或可增强孤独症患者学习能力
- 华为|网络工程师入门必懂华为认证体系,附系统学习路线分享
- Python|【源码时代干货分享】什么样的工作可以学习Python
- 患者|新研究:“记忆闪存法”或可增强孤独症患者学习能力
- 路由器|从运维到网工,我是怎么下决心改变和学习的
- PDF文件转Excel表格怎么转?这两种方法学习一下。
- 2022年深度学习平台发展报告(附下载)
- 韩雪扣子裂开,被杨迪用眼神暗示后,她的救场动作值得大家学习!
- 超越TensorFlow、PyTorch,百度飞桨登顶中国市场应用规模第一
- 深度调研|2022芯片设计业人才市场趋势,附报告下载