想回老家的潜伏者躺平又起来了

未归档《强化学习》基于策略的方法

未归档

Git(1) Lasso(1) Linux(1) Python(2) Scala(7) SVM(1) TensorFlow(3) 其他(1) 图表示学习(1) 工具介绍(1) 强化学习(1) 推荐系统(1) 机器学习(8) 深度学习(2) 聚类和EM算法(1)

/ 注册

《强化学习》基于策略的方法

1027 浏览 0 回复 2018-06-20

想回老家的潜伏者躺平又起来了

+关注

基于策略RL和基于值函数RL

直觉

不同种类的策略

策略梯度形式

LOG技巧

REINFORCE

with baseline

Actor-Critic

Advantage Actor Critic

policy based 和 Value based

A3C

结合监督学习和强化学习

举报

收藏

赞

评论加载中...