RNN
Stacked RNN(多层RNN) embeding层参数过多造成overfiting Bidirectional RNN(双向RNN) Pretrain(预训练) Tokenization(把一句话分割)
不同level(word,char),有不同字典vocabulary(分词方法),做One-Hot-Encoding
Encoder的最后一个状态(是这句话的概要)给Decoder作为初始状态,得知原文数据
计算y与p损失函数,反向传播梯度下降修正模型
步骤一
步骤二 
Bi-LSTM encoder两个方向,decoder只需要一个方向 
多task Decoder能够提高准确度 
Attention 避免遗忘,每次decoder更新都会看一眼encoder所有状态,计算量会增大
计算s0和hi的相关性分别为a1,a2….am
a1~am>0,且相加为一
计算加权平均c0对应于s0,c0=a1h1+a2h2……,decoder更新s1,然后重新计算新的与S1的相关性分别为a1,a2….am,计算加权平均c1对应于s1,decoder更新s2 
计算代价大
线代表a权重 

