长短期记忆网络LSTM

1.普通的RNN的信息不能长久传播
2.引入选择性机制:(1)选择性输出;(2)选择性输入;(3)选择性遗忘
3.选择性----->门
图片说明

图片说明

1.Cell的状态传递
图片说明
2.遗忘门:新的一句有新的主语,就把之前的主语忘掉
图片说明
3.传入门:是不是要把主语的性别信息添加进来
图片说明
4.输出门:动词该用单数形式还是复数形式
图片说明

对其中状态的判定:
1.经过遗忘门的上一状态
2.经过穿入门的输入状态
图片说明

一、LSTM的单向操作:
图片说明

二、LSTM的双向操作:
图片说明

1.输出部分:
(1)拼接
(2)平均
(3)池化

HAN文本分类:
图片说明
1.两层机制:词语和句子
2.注意力机制:类似于门限机制

基于CNN的文本分类
单通道一维卷积:
图片说明
多通道一维卷积:
图片说明

主要流程如下所示:
1.一维卷积:应用在时间维度上;Embedding(嵌入)长度就是通道数目;多种层次的卷积核
2.池化:在时间层次上pooling
3.全连接

CNN和RNN之间的比较:
1.CNN不能完美解决序列式问题???
2.CNN卷积相当于N-gram,LSTM可以提取更长的依赖
3.预训练和嵌入
4.双向RNN会增强效果
5.CNN模型并行程度高,更快
6.嵌入模型压缩

R-CNN文本分类
图片说明
流程如下:
1.双向RNN提取特征
2.CNN进一步抽取
3.Max-pooling(最大池化)
4.全连接层

Embedding压缩
1.Embedding层次参数过大:无法实用;过拟合