为什么要NAT:AT的解码速度太长了,NAT可以并行解码
会带来的问题:multi-modality问题,就是概率分布的对应比较混乱
图片说明
想法1:
图片说明
问题:输出模糊,数据集的平均,multi modality
原因:没有dependency
解决:autoregressive:pixel rnn; gan:output完整structure的方法
图片说明

Vanilla NAT:

  1. encoder output decoder对应几个字,数字总和决定输出长度
  2. Fertility:(latent variable)
    图片说明

知识蒸馏

图片说明

Noisy Parallel Decoding

sample不同的Fertility
decoder输出不同结果
交给autoregressive打分数

Evolution of NAT

  1. Vanilla NAT
  2. Iterative Refinement
  3. Insertion-based
  4. Insert-delete
  5. CTC-based

Mask-Predict

图片说明

Insertion Transformer

输出拼接预测要插入的字
图片说明

图片说明
优先insert靠中间的字

KERMIT

只用encoder,同时train 5个test

Levenshtein Transformer

图片说明
训练方法:imitation learning
Levenshtein distance algorithm
图片说明
图片说明

Imputer

图片说明

block decoding

每个block每步都要变一个

CTC text generation

图片说明

NAT distill