Transformer

Attention without RNN

把xj映射到qj 一共Wk Wv Wq三个权重参数权重a计算加权平均c x与c的个数一样 cj是列向量 RNN的话,会把h作为特征向量,attention是c,而c是知道整句英语的 p2抽样得到第三个德语单词x3 attention输出是c

Self-Attention without RNN 每个x被映射成q,k,v三个向量计算m个权重a(a是m维的) 计算Context vector 这m个c向量就是Self-Attention的输出改变任何一个x输出c都会改变