| 作 者: | 马克西姆·拉潘 |
| 出版社: | 机械工业出版社 |
| 丛编项: | |
| 版权说明: | 本书为公共版权或经版权方授权,请支持正版图书 |
| 标 签: | 暂缺 |
| ISBN | 出版时间 | 包装 | 开本 | 页数 | 字数 |
|---|---|---|---|---|---|
| 未知 | 暂无 | 暂无 | 未知 | 0 | 暂无 |
译者序
前言
作者简介
审校者简介
第1章 什么是强化学习
1.1 机器学习分类
1.1.1 监督学习
1.1.2 非监督学习
1.1.3 强化学习
1.2 强化学习的复杂性
1.3 强化学习的形式
1.3.1 奖励
1.3.2 智能体
1.3.3 环境
1.3.4 动作
1.3.5 观察
1.4 强化学习的理论基础
1.4.1 马尔可夫决策过程
1.4.2 策略
1.5 总结
第2章 OpenAIGym
2.1 剖析智能体
2.2 硬件和软件要求
2.3 0penAIGymAPI
2.3.1 动作空间
2.3.2 观察空间
2.3.3 环境
2.3.4 创建环境
2.3.5 车摆系统
2.4 随机CartPole智能体
2.5 Gym的额外功能:包装器和监控器
2.5.1 包装器
2.5.2 监控器
2.6 总结
第3章 使用PyTorch进行深度学习
3.1 张量
3.1.1 创建张量
3.1.2 零维张量
3.1.3 张量操作
3.1.4 GPU张量
3.2 梯度
3.3 NN构建块
3.4 自定义层
3.5 最终黏合剂:损失函数和优化器
3.5.1 损失函数
3.5.2 优化器
3.6 使用TensorBoard进行监控
3.6.1 TensorBOard101
3.6.2 绘图
3.7 示例:将GAN应用于Atari图像
3.8 PyTorchlgnite
3.9 总结
第4章 交叉熵方法
4.1 RL方法的分类
4.2 交叉熵方法的实践
4.3 交叉熵方法在CartPole中的应用
4.4 交叉熵方法在FrozenLake中的应用
4.5 交叉熵方法的理论背景
4.6 总结
第5章 表格学习和Bellman方程
5.1 价值、状态和最优性
5.2 最佳Bellman方程
5.3 动作的价值
5.4 价值迭代法
5.5 价值迭代实践
5.6 Q-Iearning在FrozenLake中的应用
5.7 总结
第6章 深度Q.network
6.1 现实的价值迭代
6.2 表格Q-Iearning
6.3 深度Q-learning
6.3.1 与环境交互
6.3.2 SGD优化
6.3.3 步骤之间的相关性
6.3.4 马尔可夫性质
6.3.5 DQN训练的最终形式
6.4 DQN应用于Pong游戏
6.4.1 包装器
6.4.2 DQN模型
6.4.3 训练
6.4.4 运行和性能
6.4.5 模型实战
6.5 可以尝试的事情
6.6 总结
第7章 高级强化学习库
7.1 为什么使用强化学习库
7.2 PTAN库
7.2.1 动作选择器
7.2.2 智能体
7.2.3 经验源
7.2.4 经验回放缓冲区
7.2.5 TargetNet类
7.2.6 Ignite帮助类
7.3 PTAN版本的CartPole解决方案
7.4 其他强化学习库
7.5 总结
第8章 DQN扩展
8.1 基础DQN
8.1.1 通用库
8.1.2 实现
8.1.3 结果
8.2 N步DQN
……
第9章 加速强化学习训练的方法
第10章 使用强化学习进行股票交易
第11章 策略梯度:一种替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用强化学习训练聊天机器人
第15章 TextWorld环境
第16章 Web导航
第17章 连续动作空间
第18章 机器人技术中的强化学习
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 强化学习中的黑盒优化