想回老家的潜伏者躺平又起来了
想回老家的潜伏者躺平又起来了
未归档
《强化学习》基于策略的方法
全部文章
未归档
Git(1)
Lasso(1)
Linux(1)
Python(2)
Scala(7)
SVM(1)
TensorFlow(3)
其他(1)
图表示学习(1)
工具介绍(1)
强化学习(1)
推荐系统(1)
机器学习(8)
深度学习(2)
聚类和EM算法(1)
归档
标签
去牛客网
登录
/
注册
《强化学习》基于策略的方法
854 浏览
0 回复
2018-06-20
想回老家的潜伏者躺平又起来了
+关注
基于策略RL和基于值函数RL
直觉
不同种类的策略
策略梯度形式
LOG技巧
REINFORCE
with baseline
Actor-Critic
Advantage Actor Critic
policy based 和 Value based
A3C
结合监督学习和强化学习
举报
收藏
赞
评论加载中...