本文转载自微信公众号机器人学家，根据其上发布的CMU翻译讲义进行整理。

大纲

Exact solution methods:
- Policy iteration
  - Policy Evaluation (a.k.a. DP)
  - Policy Improvement
- Value iteration (a.k.a. DP)
- Linear programming
Approximate solution methods:
- Asynchronous DP

策略评估

策略评估：对于给定的策略
状态价值函数
状态价值函数

从MDPs到MRPs

当我们固定一个策略时，MDP问题就变成了马尔科夫奖励过程(Markov Reward Process，下简写为MRP)
由前面提到的状态价值函数的Bellman方程，可以得到：

矩阵形式

使用MRP，可以得到更加简洁的Bellman期望公式。如果有N个状态s，那么在策略评估的过程中，需要求解N个未知量（v(s)），有N个线性方程（每个状态有一个Bellman equation），这样可以得到一个N维线性系统，理论上可以直接求解。对这个N维线性系统可以得到如下的矩阵形式的表达。

迭代法

迭代策略评估算法

策略评估算法收敛性证明

一个有|S|个状态的MDP，其所有价值函数V(s)构成的向量可以看成|S|维向量空间V中的一个点。要说明收敛性，就要说明策略评估里的计算——贝尔曼 backup 会对该空间中的点带来怎样变化？
下面我们说明，它每次迭代都会使这些点离得更近
所以贝尔曼backup在无穷次迭代后必然收敛到唯一解

价值函数的无穷范数

我们可以用

贝尔曼back up是收缩的

定义贝尔曼Back up操作子

收缩映射定理

定理（收缩映射定理）
已知T是

结论：迭代策略评估是收敛的

贝尔曼期望操作子

策略迭代

广义策略迭代(GPI)

最优性原理

称策略

对于从状态s可以到达任意的状态s’
策略

值迭代

速度慢一次迭代时间复杂读
每个状态的max值很少变化
策略往往先于状态价值很长时间收敛

策略迭代

仍然是最优的
在某些情况下收敛更快

对比

值迭代
- 每次迭代都更新了状态价值和（隐含地）策略
- 不追踪策略，但是在对
策略迭代
- 在固定此策略下多次更新utlities（每一次都很快，因为只考虑了一个action，而不是所有的）
- 策略被评估完后，选择一个新的策略（跟一次价值迭代一样慢）
- 新的策略会更好
都是解决MDPs的动态规划方法

总结

如果想：
- 计算最优价值：使用值迭代或策略迭代
- 计算特定策略价值：使用策略评估
- 将状态价值转化成一个策略：使用策略提取(one-step lookahead)
这些看起来一样
- 本质上都是Bellman uodates的变种
- 都利用one-step looahead expectimax fragments
- They differ only in whether we plug in a fixed policy or max over actions

异步动态规划

未完待续

CMU 10703 |Lecture 3 Planning in Markov decision processes

大纲

策略评估

从MDPs到MRPs

矩阵形式

迭代法

迭代策略评估算法

策略评估算法 收敛性证明

价值函数的无穷范数 <nobr> ∞−Norm </nobr>

贝尔曼back up是收缩的

收缩映射定理

结论：迭代策略评估是收敛的

策略迭代

广义策略 迭代(GPI)

最优性原理

值迭代

策略迭代

对比

总结

异步动态规划

策略评估算法收敛性证明

价值函数的无穷范数

广义策略迭代(GPI)