不同level(word,char),有不同字典vocabulary(分词方法),做One-Hot-Encoding Encoder的最后一个状态(是这句话的概要)给Decoder作为初始状态,得知原文数据
计算y与p损失函数,反向传播梯度下降修正模型
步骤一
步骤二
Bi-LSTM encoder两个方向,decoder只需要一个方向
多task Decoder能够提高准确度
Attention 避免遗忘,每次decoder更新都会看一眼encoder所有状态,计算量会增大 计算s0和hi的相关性分别为a1,a2….am
a1~am>0,且相加为一
计算加权平均c0对应于s0,c0=a1h1+a2h2……,decoder更新s1,然后重新计算新的与S1的相关性分别为a1,a2….am,计算加权平均c1对应于s1,decoder更新s2
计算代价大
线代表a权重