马尔科夫决策过程(Markov decision process)
  一般用五元组表示(S, A, P, R, γ)
 A-state
  累计奖赏
  How to estimate      Vπ(s)
 1.Monte-Carlo
      Sa⟶Vπ⟶Vπ(sa)⟶Ga
      Sb⟶Vπ⟶Vπ(sb)⟶Gb
 larger variance
      Ga is the summation of many steps
      Var(kx)=k2Var(x)
 2.Temporal-Difference
      …,st,at,rt,st+1,…
      Vπ(st)=Vπ(st+1)+rt
       st⟶Vπ⟶Vπ(st)
      st+1⟶Vπ⟶Vπ(st+1)
      ⟹Vπ(st)=Vπ(st+1)+rt
 smaller variance
 maybe inaccurate
  Q-Learning 核心公式
       Q(s,a)=Q(s,a)+α[R(s,a)+γQ(s,a)−Q(s,a)]
 其中     α是学习率,     γ是折扣因子