强化学习_牛客博客

强化学习

626 浏览 0 回复 2018-11-20

我不是匠人

+关注

马尔科夫决策过程（Markov decision process）

一般用五元组表示(S, A, P, R, γ)
A-state

累计奖赏

How to estimate $V^{π} (s)$
1.Monte-Carlo
$S_{a} ⟶ V^{π} ⟶ V^{π} (s_{a}) ⟶ G_{a}$
$S_{b} ⟶ V^{π} ⟶ V^{π} (s_{b}) ⟶ G_{b}$
larger variance
$G_{a}$ is the summation of many steps
$V a r (k x) = k^{2} V a r (x)$
2.Temporal-Difference
$\dots, s_{t}, a_{t}, r_{t}, s_{t + 1}, \dots$
$V^{π} (s_{t}) = V^{π} (s_{t + 1}) + r_{t}$

$s_{t} ⟶ V^{π} ⟶ V^{π} (s_{t})$
$s_{t + 1} ⟶ V^{π} ⟶ V^{π} (s_{t + 1})$
$⟹ V^{π} (s_{t}) = V^{π} (s_{t + 1}) + r_{t}$
smaller variance
maybe inaccurate

Q-Learning 核心公式

$Q (s, a) = Q (s, a) + α [R (s, a) + γ Q (s, a) - Q (s, a)]$
其中 $α$ 是学习率， $γ$ 是折扣因子