重磅经典教材R.Sutton《增强学习导论》最新版新智元编译编译：克雷格【新

文章图片
新智元编译
编译：克雷格
【新智元导读】加拿大阿尔伯塔大学著名增强学习大师RichardS.Sutton教授的经典教材《增强学习导论》（ReinforcementLearning:AnIntroduction）第二版近期更新，现书稿的草稿在其主页提供，新智元编译图书的目录部分，全书（英文版draft）可在新智元公众号下载。本书系统性地介绍了增强学习，共548页，其中不乏许多新颖的应用案例分析。
《强化学习导论》电子书地址：

文章图片
全书目录
第二版引言
第一版引言
符号总结
摘要
1.增强学习的问题
1.1增强学习
1.2案例
1.3增强学习要素
1.4限制和范围
1.5一个延伸案例：Tic-Tac-Toe
1.6小结
1.7增强学习的历史
列表法
2.多臂赌博机（Muti-armBandits）问题
2.1K-臂赌博机问题
2.2行动值方法
2.3The10-armedTestbed
2.4增量实现
2.5追踪一个非稳态解
2.6优化初始值
2.7置信上界行动选择
2.8梯度赌博机算法
2.9关联检索
2.10小结
3.有限马尔科夫决策过程
3.1代理（agent）环境交互
3.2目标和回馈
3.3返回
3.4为插入或连续性任务统一符号
3.5策略和价值函数
3.6优化策略和价值函数
3.7优化和近似
3.8总结
4.动态编程
4.1策略估计
4.2策略改进
4.3策略迭代
4.4迭代值
4.5异步动态编程
4.6泛化的策略迭代
4.7动态编程的效果
4.8总结
5.蒙特卡洛方法
5.1蒙特卡洛预测
5.2蒙特卡洛对行动价值的评估
5.3蒙特卡洛控制
5.4不读取（Explore）开始条件下的蒙特卡洛控制
5.5通过重要抽样进行无策略（off-Policy）预测
5.6增量实现
5.7Off-Policy蒙特卡洛控制
5.8*Discounting-awareImportanceSampling
5.9*Per-decisionImportanceSampling
5.10总结
6.时间差分（TD）学习
6.1时间差分预测
6.2时间差分预测方法的优势
6.3TD（o）的最佳性
6.4Sarsa：在策略（On-Policy）TD控制
6.5Q-Learning：连策略TD控制
6.6期待的Sarsa
6.7偏差最大化和双学习
6.8游戏、afterstates和其他具体案例
6.9总结
7.多步骤bootstrapping
7.1n-stepTD预测
7.2n-stepSarsa
7.3通过重要性抽样进行n-step离策略学习
7.4*Per-decisionOff-policyMethodswithControlVariates
7.5无重要性抽样下的离策略学习：n-step树反向算法
7.6一个统一的算法：n-stepQ（σ）
7.7总结
8.用列表方法进行计划和学习
8.1模型和计划
8.2Dyna：融合计划、行动和学习
8.3模型错了会发生什么
8.4优先扫除（prioritizedsweeping）
8.5Expectedvs.SampleUpdates
8.6TrajectorySampling
8.7Real-timeDynamicProgramming
8.8计划作为行动选择的一部分
8.9启发式搜索
8.10RolloutAlgorithms
8.11蒙特卡洛树搜索
8.12本章总结
8.13SummaryofPartI:Dimensions
近似法解决方案
9.使用近似法的在政策预测
9.1价值函数的近似
9.2预测目标（MSVE）
9.3随机梯度和半梯度的方法
9.4线性方法
9.5线性方法中的特征构建
9.5.1多项式
9.5.2傅里叶基础
9.5.3Coarsecoding
9.5.4TileCoding
9.5.5径向基函数
9.6SelectingStep-SizeParametersManually
9.7非线性函数近似：人工神经元网络
9.8最小平方TD
9.9Memory-basedFunctionApproximation