长短期记忆网络LSTM
1.普通的RNN的信息不能长久传播
2.引入选择性机制:(1)选择性输出;(2)选择性输入;(3)选择性遗忘
3.选择性----->门
1.Cell的状态传递
2.遗忘门:新的一句有新的主语,就把之前的主语忘掉
3.传入门:是不是要把主语的性别信息添加进来
4.输出门:动词该用单数形式还是复数形式
对其中状态的判定:
1.经过遗忘门的上一状态
2.经过穿入门的输入状态
一、LSTM的单向操作:
二、LSTM的双向操作:
1.输出部分:
(1)拼接
(2)平均
(3)池化
HAN文本分类:
1.两层机制:词语和句子
2.注意力机制:类似于门限机制
基于CNN的文本分类
单通道一维卷积:
多通道一维卷积:
主要流程如下所示:
1.一维卷积:应用在时间维度上;Embedding(嵌入)长度就是通道数目;多种层次的卷积核
2.池化:在时间层次上pooling
3.全连接
CNN和RNN之间的比较:
1.CNN不能完美解决序列式问题???
2.CNN卷积相当于N-gram,LSTM可以提取更长的依赖
3.预训练和嵌入
4.双向RNN会增强效果
5.CNN模型并行程度高,更快
6.嵌入模型压缩
R-CNN文本分类
流程如下:
1.双向RNN提取特征
2.CNN进一步抽取
3.Max-pooling(最大池化)
4.全连接层
Embedding压缩
1.Embedding层次参数过大:无法实用;过拟合