Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

作　者：	苏达桑·拉维尚迪兰
出版社：	机械工业出版社
丛编项：
版权说明：	本书为出版图书，暂不支持在线阅读，请支持正版图书
标　签：	暂缺

ISBN	出版时间	包装	开本	页数	字数
未知	暂无	暂无	未知	0	暂无

作者简介

　　作者简介Sudharsan Ravichandiran 是一位数据科学家、研究员、人工智能爱好者以及 YouTuber（搜索 Sudharsan reinforcement learning），获得了 Anna 大学信息技术学士学位。他的研究领域包括深度学习和强化学习的实现，其中包括自然语言处理和计算机视觉。他曾是一名自由职业的网页开发人员和设计师，所设计开发的网站屡获殊荣，同时也热衷于开源，擅长解答堆栈溢出问题。原书审稿人简介Sujit Pal 是 Elsevier 实验室的技术研究总监， Elsevier 实验室是 Reed-Elservier 集团公司下的一个先进技术团队，研究领域包括语义检索、自然语言处理、机器学习和深度学习。他在 Elsevier 实验室主要从事搜索质量检测与改进、图像分类和重复率检测、医学和科学语料库的标注与本体开发。他曾与 Antonio Gulli 合作撰写了一本关于深度学习的著作，并在博客 Slamon Run 上撰写了一些科技文章。Suriyadeepan Ramamoorthy 是一名来自印度 Puducherry 的 AI 研究人员和工程师，主要研究领域是自然语言理解和推理，同时积极撰写有关深度学习的博客文章。在 SAAMA 技术中，他将先进的深度学习技术应用于生物医学文本分析，同时也是一名积极推动 FSFTN领域发展的免费软件宣传者，另外对社交网络、数据可视化和创造性编程也非常感兴趣。

内容简介

强化学习是一种重要的机器学习方法，在智能体及分析预测等领域有许多应用。《Python强化学习实战：应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习》共13章，主要包括强化学习的各种要素，即智能体、环境、策略和模型以及相应平台和库；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置；马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系，动态规划的基本概念；蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法；时间差分学习、预测、离线/在线策略控制等；多臂赌博机问题以及相关的各种探索策略方法；深度学习的各种基本概念和RNN、LSTM、CNN等神经网络；深度强化学习算法DQN，以及双DQN和对抗网络体系结构等改进架构；DRQN以及DARQN；A3C网络的基本工作原理及架构；策略梯度和优化问题；*后介绍了强化学习的*新进展以及未来发展。

图书目录

译者序

原书前言

第1章强化学习简介 //1

1.1　什么是强化学习 //1

1.2　强化学习算法 //2

1.3　强化学习与其他机器学习范式的不同 //3

1.4　强化学习的要素 //3

1.4.1　智能体 //3

1.4.2　策略函数 //3

1.4.3　值函数 //4

1.4.4　模型 //4

1.5　智能体环境接口 //4

1.6　强化学习的环境类型 //5

1.6.1　确定性环境 //5

1.6.2　随机性环境 //5

1.6.3　完全可观测环境 //5

1.6.4　部分可观测环境 //5

1.6.5　离散环境 //5

1.6.6　连续环境 //5

1.6.7　情景和非情景环境 //5

1.6.8　单智能体和多智能体环境 //6

1.7　强化学习平台 //6

1.7.1　OpenAI Gym和Universe //6

1.7.2　DeepMind Lab //6

1.7.3　RLGlue //6

1.7.4　Project Malmo //6

1.7.5　VizDoom //6

1.8　强化学习的应用 //7

1.8.1　教育 //7

1.8.2　医疗和健康 //7

1.8.3　制造业 //7

1.8.4　库存管理 //7

1.8.5　金融 //7

1.8.6　自然语言处理和计算机视觉 //7

1.9　小结 //8

1.10　问题 //8

1.11　扩展阅读 //8

第2章从OpenAI和TensorFlow入门 //9

2.1　计算机设置 //9

2.1.1　安装Anaconda //9

2.1.2　安装Docker //10

2.1.3　安装OpenAI Gym和Universe //11

2.2　OpenAI Gym //13

2.2.1　基本模拟 //13

2.2.2　训练机器人行走 //14

2.3　OpenAI Universe //16

2.3.1　构建一个视频游戏机器人 //16

2.4　TensorFlow //20

2.4.1　变量、常量和占位符 //20

2.4.2　计算图 //21

2.4.3　会话 //21

2.4.4　TensorBoard //22

2.5　小结 //25

2.6　问题 //25

2.7　扩展阅读 //25

第3章马尔可夫决策过程和动态规划 //26

3.1　马尔可夫链和马尔可夫过程 //26

3.2　MDP //27

3.2.1　奖励和回报 //28

3.2.2　情景和连续任务 //28

3.2.3　折扣因数 //28

3.2.4　策略函数 //29

3.2.5　状态值函数 //29

3.2.6　状态—行为值函数（Q函数）//30

3.3　Bellman方程和最优性 //30

3.3.1　推导值函数和Q函数的Bellman方程 //31

3.4　求解Bellman方程 //32

3.4.1　动态规划 //32

3.5　求解冰冻湖问题 //38

3.5.1　值迭代 //39

3.5.2　策略迭代 //43

3.6　小结 //45

3.7　问题 //45

3.8　扩展阅读 //46

第4章基于蒙特卡罗方法的博弈游戏 //47

4.1　蒙特卡罗方法 //47

4.1.1　利用蒙特卡罗方法估计π值 //47

4.2　蒙特卡罗预测 //50

4.2.1　首次访问蒙特卡罗 //51

4.2.2　每次访问蒙特卡罗 //52

4.2.3　利用蒙特卡罗方法玩二十一点游戏 //52

4.3　蒙特卡罗控制 //58

4.3.1　蒙特卡罗探索开始 //58

4.3.2　在线策略的蒙特卡罗控制 //59

4.3.3　离线策略的蒙特卡罗控制 //61

4.4　小结 //62

4.5　问题 //62

4.6　扩展阅读 //63

第5章时间差分学习 //64

5.1　时间差分学习 //64

5.2　时间差分预测 //64

5.3　时间差分控制 //66

5.3.1　Q学习 //66

5.3.2　SARSA //72

5.4　Q学习和SARSA之间的区别 //77

5.5　小结 //77

5.6　问题 //78

5.7　扩展阅读 //78

第6章 MAB问题 //79

6.1　MAB问题 //79

6.1.1　ε贪婪策略 //80

6.1.2　Softmax探索算法 //82

6.1.3　UCB算法 //83

6.1.4　Thompson采样算法 //85

6.2　MAB的应用 //86

6.3　利用MAB识别正确的广告标识 //87

6.4　上下文赌博机 //89

6.5　小结 //89

6.6　问题 //89

6.7　扩展阅读 //89

第7章深度学习基础 //90

7.1　人工神经元 //90

7.2　ANN //91

7.2.1　输入层 //92

7.2.2　隐层 //92

7.2.3　输出层 //92

7.2.4　激活函数 //92

7.3　深入分析ANN //93

7.3.1　梯度下降 //95

7.4　TensorFlow中的神经网络 //99

7.5　RNN //101

7.5.1　基于时间的反向传播 //103

7.6　LSTM RNN //104

7.6.1　利用LSTM RNN生成歌词 //105

7.7　CNN //108

7.7.1　卷积层 //109

7.7.2　池化层 //111

7.7.3　全连接层 //112

7.7.4　CNN架构 //112

7.8　利用CNN对时尚产品进行分类　//113

7.9　小结 //117

7.10　问题 //117

7.11　扩展阅读 //118

第8章基于DQN的Atari游戏　//119

8.1　什么是DQN //119

8.2　DQN的架构 //120

8.2.1　卷积网络 //120

8.2.2　经验回放 //121

8.2.3　目标网络 //121

8.2.4　奖励裁剪 //122

8.2.5　算法理解 //122

8.3　构建一个智能体来玩Atari游戏 //122

8.4　双DQN //129

8.5　优先经验回放 //130

8.6　对抗网络体系结构 //130

8.7　小结 //131

8.8　问题 //132

8.9　扩展阅读 //132

第9章基于DRQN玩Doom游戏　//133

9.1　DRQN //133

9.1.1　DRQN架构 //134

9.2　训练一个玩Doom游戏的智能体 //135

9.2.1　基本的Doom游戏 //135

9.2.2　基于DRQN的Doom游戏 //136

9.3　DARQN //145

9.3.1　DARQN架构 //145

9.4　小结 //145

9.5　问题 //146

9.6　扩展阅读 //146

第10章 A3C网络 //147

10.1　A3C //147

10.1.1　异步优势行为者 //147

10.1.2　A3C架构 //148