更新时间:2024-12-27 22:26:05
封面
版权信息
作者简介
内容简介
前言
第1章 强化学习的模型
1.1 强化学习简介
1.1.1 初识强化学习
1.1.2 强化学习的历史
1.1.3 强化学习与机器学习的关系
1.2 强化学习的模型
1.2.1 强化学习基本模型和要素
1.2.2 强化学习的执行过程
1.2.3 强化学习的数学模型——马尔可夫决策过程
1.2.4 环境模型案例
1.3 Gym介绍
1.3.1 Gym简介
1.3.2 Gym安装
1.3.3 Gym的环境描述和案例
1.3.4 在Gym中添加自编环境
1.3.5 直接使用自编环境
第2章 动态规划法
2.1 动态规划法简介
2.2 值函数和贝尔曼方程
2.2.1 累积折扣奖励
2.2.2 值函数
2.2.3 贝尔曼方程
2.3 策略评估
2.4 策略改进
2.5 最优值函数和最优策略
2.6 策略迭代和值迭代
2.7 动态规划法求解强化学习案例
第3章 蒙特卡罗法
3.1 蒙特卡罗法简介
3.2 蒙特卡罗策略评估
3.2.1 蒙特卡罗策略评估
3.2.2 增量式蒙特卡罗策略评估
3.2.3 蒙特卡罗策略评估案例
3.2.4 蒙特卡罗和动态规划策略评估的对比
3.3 蒙特卡罗强化学习
3.3.1 蒙特卡罗策略改进
3.3.2 起始探索蒙特卡罗强化学习
3.3.3 ε-贪婪策略蒙特卡罗强化学习
3.3.4 蒙特卡罗强化学习案例
3.4 异策略蒙特卡罗强化学习
3.4.1 重要性采样
3.4.2 异策略蒙特卡罗策略评估
3.4.3 增量式异策略蒙特卡罗策略评估
3.4.4 异策略蒙特卡罗强化学习
3.4.5 异策略蒙特卡罗强化学习案例
3.5 蒙特卡罗树搜索
3.5.1 MCTS的基本思想
3.5.2 MCTS的算法流程
3.5.3 基于MCTS的强化学习算法
3.5.4 案例和代码
第4章 时序差分法
4.1 时序差分策略评估
4.1.1 时序差分策略评估原理
4.1.2 时序差分策略评估算法
4.1.3 时序差分策略评估案例
4.1.4 时序差分策略评估的优势
4.2 同策略时序差分强化学习
4.2.1 Sarsa算法
4.2.2 Sarsa算法案例
4.3 异策略时序差分强化学习
4.3.1 Q-learning算法
4.3.2 期望Sarsa算法
4.3.3 Double Q-learning算法
4.3.4 Q-learning算法案例
4.4 n步时序差分强化学习
4.4.1 n步时序差分策略评估
4.4.2 n-step Sarsa算法
4.5 TD(λ)算法
4.5.1 前向TD(λ)算法
4.5.2 后向TD(λ)算法
4.5.3 Sarsa(λ)算法
第5章 深度学习与PyTorch
5.1 从感知机到神经网络
5.1.1 感知机模型
5.1.2 感知机和布尔运算
5.2 深度神经网络
5.2.1 网络拓扑
5.2.2 前向传播
5.2.3 训练模型
5.2.4 误差反向传播
5.3 激活函数、损失函数和数据预处理
5.3.1 激活函数
5.3.2 损失函数
5.3.3 数据预处理
5.4 PyTorch深度学习软件包
5.4.1 数据类型及类型的转换
5.4.2 张量的维度和重组操作
5.4.3 组装神经网络的模块
5.4.4 自动梯度计算
5.4.5 训练数据自由读取
5.4.6 模型的搭建、训练和测试
5.4.7 模型的保存和重载
5.5 深度学习案例
5.5.1 函数近似
5.5.2 数字图片识别