不同level(word,char),有不同字典vocabulary(分词方法),做One-Hot-Encoding Encoder的最后一个状态(是这句话的概要)给Decoder作为初始状态,得知原文数据 计算y与p损失函数,反向传播梯度下降修正模型 步骤一 步骤二
Bi-LSTM encoder两个方向,decoder只需要一个方向
多task Decoder能够提高准确度
Attention 避免遗忘,每次decoder更新都会看一眼encoder所有状态,计算量会增大 计算s0和hi的相关性分别为a1,a2….am a1~am>0,且相加为一 计算加权平均c0对应于s0,c0=a1h1+a2h2……,decoder更新s1,然后重新计算新的与S1的相关性分别为a1,a2….am,计算加权平均c1对应于s1,decoder更新s2
计算代价大 线代表a权重