RNN

Stacked RNN（多层RNN） embeding层参数过多造成overfiting Bidirectional RNN（双向RNN） Pretrain（预训练） Tokenization(把一句话分割) 不同level(word,char),有不同字典vocabulary(分词方法),做One-Hot-Encoding Encoder的最后一个状态(是这句话的概要)给Decoder作为初始状态,得知原文数据计算y与p损失函数,反向传播梯度下降修正模型步骤一步骤二

Bi-LSTM encoder两个方向,decoder只需要一个方向

多task Decoder能够提高准确度

Attention 避免遗忘,每次decoder更新都会看一眼encoder所有状态,计算量会增大计算s0和hi的相关性分别为a1,a2….am a1~am>0,且相加为一计算加权平均c0对应于s0,c0=a1h1+a2h2……,decoder更新s1,然后重新计算新的与S1的相关性分别为a1,a2….am,计算加权平均c1对应于s1,decoder更新s2

计算代价大线代表a权重