想回老家的潜伏者躺平又起来了

分类

Git(1) Lasso(1) Linux(1) Python(2) Scala(7) SVM(1) TensorFlow(3) 其他(1) 图表示学习(1) 工具介绍(1) 强化学习(1) 推荐系统(1) 未归档(73) 机器学习(8) 深度学习(2) 聚类和EM算法(1)

/ 注册

全部文章（共105篇）

Pytorch API备忘

之前一直用tensorflow和keras，最近在看一些CV领域的paper，发现相关的开源代码很多是pytorch实现的，于是打算学下pytorch。以下主要根据《深度学习入门之Pytorch》这本书对一些常用API进行记录。 Pytorch基础 Tensor张量 ...

2018-09-11

0 547

《强化学习》探索方法

衡量探索基于不确定性的探索 Thompson Sampling UCB1 贝叶斯UCB 基于MCTS的规划规划 MCTS

2018-06-21

0 509

《强化学习》基于策略的方法

基于策略RL和基于值函数RL 直觉不同种类的策略策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy bas...

2018-06-20

0 797

《强化学习》近似值函数方法

强化学习和监督学习表格方法的局限 RL中的函数近似监督学习-MC MC—TD 基于值函数的RL损失函数近似方法的一些困难 Deep Q-Network 经验回放目标网络奖励裁剪 DQN的一些问题和...

2018-06-04

0 595

《强化学习》模型无关方法

模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-L...

2018-06-04

0 620

《强化学习》 DP动态规划

奖赏设计累计奖赏和折扣累计奖赏数学上看，折扣奖赏机制可以将累计回报转化为递推的形式： Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G ...

2018-05-30

0 585

《强化学习》基本概念和交叉熵方法

基本概念监督学习与强化学习监督学习强化学习通过学习近似参考答案通过试验和错误来学习最优策略需要正确答案 ***的动作需要反馈模型不影响输入数据 ...

2018-05-29

0 348

《序列模型》之序列模型和注意力机制

seq2seq基础模型 Sequence to Sequence Learning with Neural Networks Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...

2018-02-12

0 690

《序列模型》之自然语言处理和词嵌入

词嵌入简介 Linguistic regularities in continuous spaceword representations A Neural Probabilistic Language Model Word2vec&GloVe word2vec CBOW&...

2018-02-12

0 808

《序列模型》之循环神经网络基础

RNN model 模型架构 BPTT 不同类型的RNN 梯度爆炸和梯度消失出现原因解决梯度爆炸检测梯度裁剪截断BPTT 解决梯度消失很难检测如何解决 LSTM,GRU ...

2018-02-12

0 1140