想回老家的潜伏者躺平又起来了
想回老家的潜伏者躺平又起来了
全部文章
分类
Git(1)
Lasso(1)
Linux(1)
Python(2)
Scala(7)
SVM(1)
TensorFlow(3)
其他(1)
图表示学习(1)
工具介绍(1)
强化学习(1)
推荐系统(1)
未归档(73)
机器学习(8)
深度学习(2)
聚类和EM算法(1)
归档
标签
去牛客网
登录
/
注册
浅梦的学习笔记
记录&分享工作学习中的算法技术原理和实践
全部文章
(共105篇)
Pytorch API备忘
之前一直用tensorflow和keras,最近在看一些CV领域的paper,发现相关的开源代码很多是pytorch实现的,于是打算学下pytorch。 以下主要根据《深度学习入门之Pytorch》这本书对一些常用API进行记录。 Pytorch基础 Tensor张量 ...
2018-09-11
0
521
《强化学习》探索方法
衡量探索 基于不确定性的探索 Thompson Sampling UCB1 贝叶斯UCB 基于MCTS的规划 规划 MCTS
2018-06-21
0
491
《强化学习》基于策略的方法
基于策略RL和基于值函数RL 直觉 不同种类的策略 策略梯度形式 LOG技巧 REINFORCE with baseline Actor-Critic Advantage Actor Critic policy bas...
2018-06-20
0
790
《强化学习》近似值函数方法
强化学习和监督学习 表格方法的局限 RL中的函数近似 监督学习-MC MC—TD 基于值函数的RL损失函数 近似方法的一些困难 Deep Q-Network 经验回放 目标网络 奖励裁剪 DQN的一些问题和...
2018-06-04
0
590
《强化学习》 模型无关方法
模型无关学习 Monte-Carlo & Temporal Difference; Q-learning 探索与利用 on-policy 和 off-policy SARSA Expected value SARSA SARSA和Q-L...
2018-06-04
0
594
《强化学习》 DP动态规划
奖赏设计 累计奖赏和折扣累计奖赏 数学上看,折扣奖赏机制可以将累计回报转化为递推的形式: Gt=Rt+γ(Rt+1+γRt+2+...)=Rt+γGt+1 G ...
2018-05-30
0
571
《强化学习》 基本概念和交叉熵方法
基本概念 监督学习与强化学习 监督学习 强化学习 通过学习近似参考答案 通过试验和错误来学习最优策略 需要正确答案 ***的动作需要反馈 模型不影响输入数据 ...
2018-05-29
0
331
《序列模型》之序列模型和注意力机制
seq2seq基础模型 Sequence to Sequence Learning with Neural Networks Learning Phrase Representations using RNN Encoder-Decoder for Statistical Mac...
2018-02-12
0
681
《序列模型》之自然语言处理和词嵌入
词嵌入简介 Linguistic regularities in continuous spaceword representations A Neural Probabilistic Language Model Word2vec&GloVe word2vec CBOW&...
2018-02-12
0
801
《序列模型》之循环神经网络基础
RNN model 模型架构 BPTT 不同类型的RNN 梯度爆炸和梯度消失 出现原因 解决梯度爆炸 检测 梯度裁剪 截断BPTT 解决梯度消失 很难检测 如何解决 LSTM,GRU ...
2018-02-12
0
1133
首页
上一页
1
2
3
4
5
6
7
8
9
10
下一页
末页