| ISBN | 出版时间 | 包装 | 开本 | 页数 | 字数 |
|---|---|---|---|---|---|
| 未知 | 暂无 | 暂无 | 未知 | 0 | 暂无 |
1 引言
1.1 学习和优化概述
1.1.1 问题描述
1.1.2 最优策略
1.1.3 学习和优化的基本局限
1.1.4 学习和优化的基于灵敏度的观点
1.2 不同学科中问题的描述
1.2.1 摄动分析(PA)
1.2.2 马尔可夫决策过程
1.2.3 强化学习
1.2.4 辨识和自适应控制
1.2.5 基于事件的优化和性能势集结
1.3 学习和优化学科关系图
1.4 术语和符号
习题
第1部分 学习与优化的四门学科
2 摄动分析
2.1 马尔可夫链的摄动分析
2.1.1 构造摄动样本路径
2.1.2 摄动实现因子和性能势
2.1.3 性能导数公式
2.1.4 折扣报酬准则的梯度
2.1.5 高阶导数和麦克劳林级数
2.2 马尔可夫过程的性能灵敏度
2.3 半马尔可夫过程的性能灵敏度
2.3.1 半马尔可夫过程的基础知识
2.3.2 性能灵敏度公式
2.4 排队系统的摄动分析
2.4.1 构造摄动样本路径
2.4.2 摄动实现
2.4.3 性能导数
2.4.4 相关理论问题的评注
2.5 其他方法
习题
3 利用摄动分析的学习与优化
3.1 性能势
3.1.1 数值方法
3.1.2 从样本路径学习性能势
3.1.3 耦合
3.2 性能梯度
3.2.1 通过性能势估计
3.2.2 直接学习
3.3 利用摄动分析的优化
3.3.1 梯度方法和随机逼近
3.3.2 利用长样本路径的优化
3.3.3 应用
习题
4 马尔可夫决策过程
……
第2部分 基于事件的优化——一种新方法
第3部分 附录:数学基础