马尔科夫决策过程(Markov decision process)
一般用五元组表示(S, A, P, R, γ)
A-state
累计奖赏
How to estimate Vπ(s)
1.Monte-Carlo
Sa⟶Vπ⟶Vπ(sa)⟶Ga
Sb⟶Vπ⟶Vπ(sb)⟶Gb
larger variance
Ga is the summation of many steps
Var(kx)=k2Var(x)
2.Temporal-Difference
…,st,at,rt,st+1,…
Vπ(st)=Vπ(st+1)+rt
st⟶Vπ⟶Vπ(st)
st+1⟶Vπ⟶Vπ(st+1)
⟹Vπ(st)=Vπ(st+1)+rt
smaller variance
maybe inaccurate
Q-Learning 核心公式
Q(s,a)=Q(s,a)+α[R(s,a)+γQ(s,a)−Q(s,a)]
其中 α是学习率, γ是折扣因子