sabo

分类

c++(1) 因果推断(2) 技术栈(1) 机器学习(27) 程序静态分析(1) 算法实践(1) 算法总结(15) 统计(1) 自然语言处理(9) 论文笔记(13) 读书笔记(1) 面经(1) 项目学习(1) 题解(28)

/ 注册

TA的专栏 48篇文章 0人订阅

45篇文章 2424人学习

2篇文章 786人学习

1篇文章 194人学习

全部文章（共3篇）

cs285: Policy Gradients 来自专栏

Introduction 复习一下policy gradients Evaluating the objective 首先要说一下pg的推导过程。 Direct policy differentiation 其实最主要的就这三行公式。然后再有：总而言之就是让好的轨迹出现的概率增大，让差的轨迹出现的...

强化学习

2020-05-06

0 696

cs285: Introduction to Reinforcement Learning 来自专栏

Introduction 主要记录RL的模型分类 Types of RL algorithms Model-based RL algorithms Direct Policy Gradient Actor Critic Why so many algorithms Examples...

强化学习

2020-05-06

0 1008

cs285：Supervised learning of behaviors 来自专栏

Introduction cs285是伯克利深度强化学习课程。准备追了 Imitation learning 看起来很美好，关键不work。因为数据的分布和策略的分布不同，监督学习不太能适应distribution shift的情况。那怎么办呢？要让机器学习错误并且纠正的过程。有没有更加省力的方法？...

强化学习

2020-05-06

0 740