想回老家的潜伏者躺平又起来了

未归档

Git(1) Lasso(1) Linux(1) Python(2) Scala(7) SVM(1) TensorFlow(3) 其他(1) 图表示学习(1) 工具介绍(1) 强化学习(1) 推荐系统(1) 机器学习(8) 深度学习(2) 聚类和EM算法(1)

/ 注册

全部文章 / 未归档（共73篇）

《强化学习》基于策略的方法

基于策略RL和基于值函数RL 直觉不同种类的策略策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy bas...

2018-06-20

0 829

《强化学习》近似值函数方法

强化学习和监督学习表格方法的局限 RL中的函数近似监督学习-MC MC—TD 基于值函数的RL损失函数近似方法的一些困难 Deep Q-Network 经验回放目标网络奖励裁剪 DQN的一些问题和...

2018-06-04

0 623

《强化学习》模型无关方法

模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-L...

2018-06-04

0 666

《强化学习》 DP动态规划

奖赏设计累计奖赏和折扣累计奖赏数学上看，折扣奖赏机制可以将累计回报转化为递推的形式： Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G ...

2018-05-30

0 628

《强化学习》基本概念和交叉熵方法

基本概念监督学习与强化学习监督学习强化学习通过学习近似参考答案通过试验和错误来学习最优策略需要正确答案 ***的动作需要反馈模型不影响输入数据 ...

2018-05-29

0 395

《序列模型》之序列模型和注意力机制

seq2seq基础模型 Sequence to Sequence Learning with Neural Networks Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...

2018-02-12

0 728

《序列模型》之循环神经网络基础

RNN model 模型架构 BPTT 不同类型的RNN 梯度爆炸和梯度消失出现原因解决梯度爆炸检测梯度裁剪截断BPTT 解决梯度消失很难检测如何解决 LSTM,GRU ...

2018-02-12

0 1186

《卷积网络》人脸识别和神经风格迁移

人脸识别人脸认证和人脸识别 One-shot Learning Siamese Network and Triplet Loss Taigman et. al., 2014. DeepFace closing the gap to human level perfor...

2017-11-24

0 592

《卷积网络》物体检测

物体定位图像分类，带定位的图像分类与物体检测带定位的图像分类这里 <nobr> bx,by </nobr>分别表示物体中心点在图像中的比例， <nobr> bw,bh </nobr>表...

2017-11-23

0 667

《卷积网络》深度卷积网络实例

经典网络 LeNet-5 共有约60k个参数，特点在论文中，激活函数使用的是sigmoid和tanh，那个时候还未使用ReLU. 当时出于节约计算力的考虑，不同的卷积核计算了不同的channel。（这里等之后看了论文补充）池化层后添加了非线性激活函数(sigmoid)...

2017-11-22

0 497