图像生成文本

首先是测评指标的问题

1.BLEU score
（1）N-gram Match
图片说明

图片说明

2.图像检索
3.人工测评

1.encoder
2.decoder
图片说明

贪心文本生成：每一步选择概率最高的词
图片说明

最优文本生成：
图片说明

Beam Search生成文本
1.每一步取top-n结果
2.下一步依靠上一步的top-n结果在n^2的结果里选择top-n
3.生成top-n路径
4.用单独的语言模型评测top-n路径

图片说明

流程如下：
1.输入词取embedding A
2.Embedding A输入到RNN生成更抽象的embedding B
3.图像Feature C:AlexNet7 freature;Object detection featurre
4.Multi-Model层输入是A,B,C

1.图像特征只使用一次
2.LSTM生成文本
3.图像特征使用更强大的CNN
(1)GoogNet
(2)Res-Net
(3)NAS-Net

图片说明

流程如下：
1.输入图片
2.卷积特征提取
3.RNN和LSTM处理图像
4.给出词语描述

图片说明

1.不使用全连接层
2.使用某个卷积层的feature:有位置信息
3.LSTM的输入带有位置信息加权平均和：Attention就是加权平均

卷积层为1414256；具体解释如下:
图片说明

图片说明
流程结构：
1.两层LSTM
（1）第一层LSTM学习attention
（2）第二层LSTM学习生成文本

详细解释：
（1）第一层LSTM：
前一时刻的Language-------LSTM的状态
当前词的embedding
图像均值feature

（2）Attention Layer
第一层LSTM的状态
不同位置的feature编码

（3）第二层LSTM
第一层LSTM的状态
加权平均的图像feature

以上的比较：
1.Multi-Model RNN
每一步需要图像特征输入
普通的RNN

2.Show and Tell
LSTM：
（1）使得同样的图像特征没必要重复输入
（2）使得词语的原始embedding没必要输入

3.Show attend and Tell
（1）引入attention机制，每个词语可以对应图片的不同位置
（2）每一步都需要输入图像加权特征

4.Bottom-up top-down attention
分层机制解决一个LSTM同时学习两件事情的过载问题

问题难点：
1.多样化
（1）一句话可能对应多个图
（2）一个词的变化会导致整张图发生很大的变化
2.任务
（1）生成一张真实的图像
（2）生成与问题匹配的图像

图片说明

1.生成网络
（1）文本使用LSTM编码
（2）编码使用反卷积生成图像
2.判别网络
（1）判断生成的图片是不是真实图片
（2）判断生成的图片是不是和文字描述匹配