RNN

Stacked RNN(多层RNN) embeding层参数过多造成overfiting Bidirectional RNN(双向RNN) Pretrain(预训练) Tokenization(把一句话分割) Img 不同level(word,char),有不同字典vocabulary(分词方法),做One-Hot-Encoding Img Encoder的最后一个状态(是这句话的概要)给Decoder作为初始状态,得知原文数据 Img 计算y与p损失函数,反向传播梯度下降修正模型 Img 步骤一 Img 步骤二 Img

Img Bi-LSTM encoder两个方向,decoder只需要一个方向 Img

Img 多task Decoder能够提高准确度 Img

Attention 避免遗忘,每次decoder更新都会看一眼encoder所有状态,计算量会增大 Img 计算s0和hi的相关性分别为a1,a2….am Img a1~am>0,且相加为一 Img 计算加权平均c0对应于s0,c0=a1h1+a2h2……,decoder更新s1,然后重新计算新的与S1的相关性分别为a1,a2….am,计算加权平均c1对应于s1,decoder更新s2 Img

Img 计算代价大 Img 线代表a权重 Img

Img

Img Img Img Img Img Img