sabo
sabo
全部文章
分类
c++(1)
因果推断(2)
技术栈(1)
机器学习(27)
程序静态分析(1)
算法实践(1)
算法总结(15)
统计(1)
自然语言处理(9)
论文笔记(13)
读书笔记(1)
面经(1)
项目学习(1)
题解(28)
归档
标签
去牛客网
登录
/
注册
Stay Forever Young
Act like a woman, think like a man
TA的专栏
48篇文章
0人订阅
算法小屋
45篇文章
2341人学习
c++
2篇文章
722人学习
大数据
1篇文章
99人学习
全部文章
(共3篇)
cs285: Policy Gradients
来自专栏
Introduction 复习一下policy gradients Evaluating the objective 首先要说一下pg的推导过程。 Direct policy differentiation 其实最主要的就这三行公式。然后再有:总而言之就是让好的轨迹出现的概率增大,让差的轨迹出现的...
强化学习
2020-05-06
0
611
cs285: Introduction to Reinforcement Learning
来自专栏
Introduction 主要记录RL的模型分类 Types of RL algorithms Model-based RL algorithms Direct Policy Gradient Actor Critic Why so many algorithms Examples...
强化学习
2020-05-06
0
982
cs285:Supervised learning of behaviors
来自专栏
Introduction cs285是伯克利深度强化学习课程。准备追了 Imitation learning 看起来很美好,关键不work。因为数据的分布和策略的分布不同,监督学习不太能适应distribution shift的情况。那怎么办呢?要让机器学习错误并且纠正的过程。有没有更加省力的方法?...
强化学习
2020-05-06
0
679