想回老家的潜伏者躺平又起来了
想回老家的潜伏者躺平又起来了
全部文章
未归档
Git(1)
Lasso(1)
Linux(1)
Python(2)
Scala(7)
SVM(1)
TensorFlow(3)
其他(1)
图表示学习(1)
工具介绍(1)
强化学习(1)
推荐系统(1)
机器学习(8)
深度学习(2)
聚类和EM算法(1)
归档
标签
去牛客网
登录
/
注册
浅梦的学习笔记
记录&分享工作学习中的算法技术原理和实践
全部文章
/ 未归档
(共73篇)
《强化学习》基于策略的方法
基于策略RL和基于值函数RL 直觉 不同种类的策略 策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy bas...
2018-06-20
0
790
《强化学习》近似值函数方法
强化学习和监督学习 表格方法的局限 RL中的函数近似 监督学习-MC MC—TD 基于值函数的RL损失函数 近似方法的一些困难 Deep Q-Network 经验回放 目标网络 奖励裁剪 DQN的一些问题和...
2018-06-04
0
590
《强化学习》 模型无关方法
模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-L...
2018-06-04
0
594
《强化学习》 DP动态规划
奖赏设计 累计奖赏和折扣累计奖赏 数学上看,折扣奖赏机制可以将累计回报转化为递推的形式: Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G ...
2018-05-30
0
571
《强化学习》 基本概念和交叉熵方法
基本概念 监督学习与强化学习 监督学习 强化学习 通过学习近似参考答案 通过试验和错误来学习最优策略 需要正确答案 ***的动作需要反馈 模型不影响输入数据 ...
2018-05-29
0
331
《序列模型》之序列模型和注意力机制
seq2seq基础模型 Sequence to Sequence Learning with Neural Networks Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
2018-02-12
0
681
《序列模型》之循环神经网络基础
RNN model 模型架构 BPTT 不同类型的RNN 梯度爆炸和梯度消失 出现原因 解决梯度爆炸 检测 梯度裁剪 截断BPTT 解决梯度消失 很难检测 如何解决 LSTM,GRU ...
2018-02-12
0
1133
《卷积网络》人脸识别和神经风格迁移
人脸识别 人脸认证和人脸识别 One-shot Learning Siamese Network and Triplet Loss Taigman et. al., 2014. DeepFace closing the gap to human level perfor...
2017-11-24
0
550
《卷积网络》物体检测
物体定位 图像分类,带定位的图像分类与物体检测 带定位的图像分类 这里 <nobr> bx,by </nobr>分别表示物体中心点在图像中的比例, <nobr> bw,bh </nobr>表...
2017-11-23
0
595
《卷积网络》深度卷积网络实例
经典网络 LeNet-5 共有约60k个参数, 特点 在论文中,激活函数使用的是sigmoid和tanh,那个时候还未使用ReLU. 当时出于节约计算力的考虑,不同的卷积核计算了不同的channel。(这里等之后看了论文补充) 池化层后添加了非线性激活函数(sigmoid)...
2017-11-22
0
420
首页
上一页
1
2
3
4
5
6
7
8
下一页
末页