基于策略RL和基于值函数RL

直觉


不同种类的策略


策略梯度形式




LOG技巧

REINFORCE


with baseline


Actor-Critic

Advantage Actor Critic



policy based 和 Value based

A3C

结合监督学习和强化学习