sabo

机器学习 cs285: Policy Gradients

cs285: Policy Gradients

来自【算法小屋】 735 浏览 0 回复 2020-05-06

sabo

+关注

Introduction

复习一下policy gradients

Evaluating the objective

首先要说一下pg的推导过程。
$图片说明$

Direct policy differentiation

$图片说明$
其实最主要的就这三行公式。
然后再有：

总而言之就是让好的轨迹出现的概率增大，让差的轨迹出现的概率减小。
但是因为pg的方差比较大。

比如origin的值-5，5，5会使得分布变成其中一个样子，但是同时增加10之后成为0，10，10会使得分布变成另一个样子。但其实按照逻辑来讲两者本质相同。不应该差距那么大。所以我们要设置一个baseline来减小方差。当然也有其他办法。

Causality

限定t时刻能影响到的reward的时刻只能在t时刻之后

Baseline

增加baseline是个不错的方法。这个方法在之前的deepbayes中也提到过。
图片说明

当然纯的简单baseline貌似不是最好的，最好的能使方差降到最低的应该是上面那个经过梯度平方加权的操作。但是简单baseline效果也不错了。

off policy, importance sampling

现在的问题是单纯的pg是on policy的，样本利用率不够。那么只能把它做成off policy的。并且需要重要性采样。
图片说明

然后加入因果性，做时间的截断。

做一下一阶近似。

单纯MLE的tensorflow实现：

把pg看成加权mle的tensorflow实现

Summary

复习一下pg的思路。

强化学习

举报

收藏

赞

相关专栏

45篇文章 0订阅

评论加载中...