更新时间:2022-05-06 17:09:32
封面
版权信息
作者介绍
内容简介
序
第1章 强化学习简介
1.1 强化学习的历史
1.1.1 人工智能的历史
1.1.2 强化学习和人工智能的关系
1.2 强化学习基本概念
1.2.1 智能体相关概念
1.2.2 马尔可夫决策过程
1.2.3 动作价值函数和状态-动作价值函数
1.3 强化学习算法的分类
1.3.1 基于模型的(Model-Based)和无模型的(Model-Free)
1.3.2 基于策略的(Policy-Based)和基于价值的(Value-Based)
1.3.3 在线(On-policy)算法和离线(Off-policy)算法
1.4 深度强化学习基本概念
1.5 强化学习的优缺点
1.6 蒙特卡洛梯度估计
1.7 总结
第2章 深入了解强化学习
2.1 强化学习基本要素
2.1.1 马尔可夫决策过程和回溯图
2.1.2 贪心策略和最优策略
2.1.3 最优策略的迭代算法
2.2 强化学习的探索和利用
2.3 策略迭代和价值迭代
2.3.1 策略迭代
2.3.2 价值迭代
2.4 贝尔曼方程及其应用
2.5 总结
第3章 强化学习环境
3.1 简单的强化学习环境
3.1.1 网格世界(Grid World)
3.1.2 多臂赌博机(Multi-armed Bandit)
3.1.3 井字棋(Tic-Tac-Toe)
3.2 OpenAI Gym环境
3.2.1 Gym环境的安装和基本接口
3.2.2 Gym的经典控制环境
3.2.3 Gym的Atari强化学习环境
3.2.4 Gym的MuJoCo环境
3.2.5 自定义Gym强化学习环境
3.3 DeepMind Lab强化学习环境
3.4 其他强化学习环境
3.4.1 PySC2 强化学习环境
3.4.2 OpenSpiel强化学习环境
3.5 深度强化学习框架简介
3.5.1 Dopamine框架
3.5.2 ReAgent框架
3.6 总结
第4章 深度Q函数强化学习算法
4.1 经典深度Q网络算法(DQN)
4.1.1 DQN算法理论背景
4.1.2 DQN模型结构
4.1.3 DQN模型的输入
4.1.4 DQN模型的训练
4.1.5 结合DQN算法的采样和模型的训练
4.2 双网络Q学习算法(Double Q-Learning)
4.2.1 算法原理
4.2.2 算法实现
4.2.3 算法效果
4.3 优先经验回放(Prioritized Experience Replay)
4.3.1 算法原理
4.3.2 算法实现
4.3.3 算法效果
4.4 竞争DQN算法(Duel DQN)
4.4.1 算法原理
4.4.2 算法实现
4.4.3 算法效果
4.5 分布形式的DQN算法(Distributional DQN)
4.5.1 分类DQN模型
4.5.2 分类DQN模型算法实现
4.5.3 分类DQN模型算法效果
4.5.4 分位数回归DQN模型
4.5.5 分位数回归DQN模型算法实现
4.5.6 分位数回归DQN模型算法效果
4.5.7 分类DQN模型小结
4.6 彩虹算法(Rainbow)
4.6.1 彩虹算法对DQN的优化
4.6.2 彩虹算法的部分实现
4.6.3 彩虹算法的模型效果
4.7 总结
第5章 策略梯度强化学习算法
5.1 经典策略梯度算法(VPG)
5.1.1 算法原理
5.1.2 基于离散动作空间算法的模型实现
5.1.3 基于离散动作空间算法的运行结果
5.1.4 基于连续动作空间算法的实现
5.1.5 基于连续动作空间算法的运行结果
5.1.6 小结
5.2 优势演员-评论家算法(A2C和A3C)
5.2.1 算法原理
5.2.2 泛化优势估计(Generalized Advantage Estimation)
5.2.3 熵正则化方法
5.2.4 优势演员-评论家算法的实现(离散动作空间)
5.2.5 优势演员-评论家算法运行效果(离散动作空间)
5.2.6 算法实现(连续动作空间)
5.2.7 运行效果(连续动作空间)
5.2.8 异步优势演员-评论家算法的实现