Introduction

复习一下policy gradients

Evaluating the objective

首先要说一下pg的推导过程。
图片说明

Direct policy differentiation

图片说明
其实最主要的就这三行公式。
然后再有:
图片说明
图片说明
图片说明
总而言之就是让好的轨迹出现的概率增大,让差的轨迹出现的概率减小。
但是因为pg的方差比较大。
图片说明
比如origin的值-5,5,5会使得分布变成其中一个样子,但是同时增加10之后成为0,10,10会使得分布变成另一个样子。但其实按照逻辑来讲两者本质相同。不应该差距那么大。所以我们要设置一个baseline来减小方差。当然也有其他办法。

Causality

限定t时刻能影响到的reward的时刻只能在t时刻之后

Baseline

增加baseline是个不错的方法。这个方法在之前的deepbayes中也提到过。
图片说明
图片说明
当然纯的简单baseline貌似不是最好的,最好的能使方差降到最低的应该是上面那个经过梯度平方加权的操作。但是简单baseline效果也不错了。

off policy, importance sampling

现在的问题是单纯的pg是on policy的,样本利用率不够。那么只能把它做成off policy的。并且需要重要性采样。
图片说明
图片说明
然后加入因果性,做时间的截断。
图片说明
做一下一阶近似。
图片说明
单纯MLE的tensorflow实现:
图片说明
把pg看成加权mle的tensorflow实现
图片说明

Summary

复习一下pg的思路。