图像生成文本

首先是测评指标的问题

1.BLEU score
(1)N-gram Match
图片说明

图片说明

图片说明

图片说明

2.图像检索
3.人工测评

其次是模型框架的问题

1.encoder
2.decoder
图片说明

贪心文本生成:每一步选择概率最高的词
图片说明

最优文本生成:
图片说明

Beam Search生成文本
1.每一步取top-n结果
2.下一步依靠上一步的top-n结果在n^2的结果里选择top-n
3.生成top-n路径
4.用单独的语言模型评测top-n路径

Multi-Model RNN

图片说明
图片说明

流程如下:
1.输入词 取embedding A
2.Embedding A输入到RNN生成更抽象的embedding B
3.图像Feature C:AlexNet7 freature;Object detection featurre
4.Multi-Model层输入是A,B,C

Show and Tell

1.图像特征只使用一次
2.LSTM生成文本
3.图像特征使用更强大的CNN
(1)GoogNet
(2)Res-Net
(3)NAS-Net

图片说明

Show Attend and Tell

流程如下:
1.输入图片
2.卷积特征提取
3.RNN和LSTM处理图像
4.给出词语描述

图片说明

1.不使用全连接层
2.使用某个卷积层的feature:有位置信息
3.LSTM的输入带有位置信息加权平均和:Attention就是加权平均

卷积层为1414256;具体解释如下:
图片说明
图片说明
图片说明

Top-Down Bottom-Up Attention

图片说明
流程结构:
1.两层LSTM
(1)第一层LSTM学习attention
(2)第二层LSTM学习生成文本

详细解释:
(1)第一层LSTM:
前一时刻的Language-------LSTM的状态
当前词的embedding
图像均值feature

(2)Attention Layer
第一层LSTM的状态
不同位置的feature编码

(3)第二层LSTM
第一层LSTM的状态
加权平均的图像feature

以上的比较:
1.Multi-Model RNN
每一步需要图像特征输入
普通的RNN

2.Show and Tell
LSTM:
(1)使得同样的图像特征没必要重复输入
(2)使得词语的原始embedding没必要输入

3.Show attend and Tell
(1)引入attention机制,每个词语可以对应图片的不同位置
(2)每一步都需要输入图像加权特征

4.Bottom-up top-down attention
分层机制解决一个LSTM同时学习两件事情的过载问题

文本生成图像

问题难点:
1.多样化
(1)一句话可能对应多个图
(2)一个词的变化会导致整张图发生很大的变化
2.任务
(1)生成一张真实的图像
(2)生成与问题匹配的图像

生成网络和判别网络

图片说明

1.生成网络
(1)文本使用LSTM编码
(2)编码使用反卷积生成图像
2.判别网络
(1)判断生成的图片是不是真实图片
(2)判断生成的图片是不是和文字描述匹配