把xj映射到qj 一共Wk Wv Wq三个权重参数 权重a计算 加权平均c
x与c的个数一样
cj是列向量
RNN的话,会把h作为特征向量,attention是c,而c是知道整句英语的 p2抽样得到第三个德语单词x3
attention输出是c
Self-Attention without RNN 每个x被映射成q,k,v三个向量
计算m个权重a(a是m维的)
计算Context vector
这m个c向量就是Self-Attention的输出
改变任何一个x输出c都会改变