Introduction

cs285是伯克利深度强化学习课程。准备追了

Imitation learning

图片说明
看起来很美好,关键不work。因为
图片说明
数据的分布和策略的分布不同,监督学习不太能适应distribution shift的情况。那怎么办呢?
要让机器学习错误并且纠正的过程。
图片说明
有没有更加省力的方法?为何不让data的分布和策略的分布相同呢?于是来了DAgger算法:
图片说明
但这个算法需要人力的参与有点讨厌,而且有可能学不到expert behavior。

Causal confusion

图片说明
有一种有趣的情况是给的学习信息越多,反而学习效果越差:
图片说明
图片说明
比如左边,信息给的太完整,导致模型学到的概念是下面指示灯亮就踩刹车,但其实是因为踩了刹车,灯才亮的。右边信息给的不完整反而能让模型慢慢地明白踩了是因为看到前面有人才会才刹车的。
这个叫causal confusion

Multimodal behavior

主要就是下面三个解决方法
图片说明
然后第三个方法看上去就好像是离散的mcmc。
图片说明

Cost function

图片说明
右边那个cost function其实很烂。
为什么那么烂?
图片说明
因为没有一些优良的收敛特性。。图片说明
和T成quadratic的关系,不太行。所以一般采用maximum reward的方式。
好的cost function应该是linearly的。
下面是证明:
图片说明

Summary

再次复习一遍强化学习。