Transformer Simplest Self-Attention 求xi的对应yi,首先计算xi与每个xj的点积,得到一个分数(即原序列每个token与xi的重要程度),再经过softmax得到一个比重,最终通过每个xj的重要程度占比,用整个序列来求得yi。 本质就是对整个序列加权平均得到对应的每个token表示。 缺点:输出序列与输入序列的位置顺序无关,无论输入序列的顺序是什么样的,对应的输出序列都是一样的。 Advanced Self-Attention 引入可训练的参数W,进行线性变换,使得xi更好地适应多种场景。 缺点:使用softmax求权重,会导致大值更大,使得最终结...