强化学习和监督学习

表格方法的局限

RL中的函数近似



监督学习-MC

MC—TD




基于值函数的RL损失函数

近似方法的一些困难

Deep Q-Network




经验回放


目标网络

奖励裁剪

DQN的一些问题和解决

Q值自相关问题


Q值过度估计



优先经验回放


Bootstrap DQN

部分可见性