想回老家的潜伏者躺平又起来了

未归档《强化学习》近似值函数方法

未归档

Git(1) Lasso(1) Linux(1) Python(2) Scala(7) SVM(1) TensorFlow(3) 其他(1) 图表示学习(1) 工具介绍(1) 强化学习(1) 推荐系统(1) 机器学习(8) 深度学习(2) 聚类和EM算法(1)

/ 注册

《强化学习》近似值函数方法

797 浏览 0 回复 2018-06-04

想回老家的潜伏者躺平又起来了

+关注

强化学习和监督学习

表格方法的局限

RL中的函数近似

监督学习-MC

MC—TD

基于值函数的RL损失函数

近似方法的一些困难

Deep Q-Network

经验回放

目标网络

奖励裁剪

DQN的一些问题和解决

Q值自相关问题

Q值过度估计

优先经验回放

Bootstrap DQN

部分可见性

举报

收藏

赞

评论加载中...