Modern RNN: GRU, Enconder-Deconder, Seq-Seq

门控循环单元 GRU

【56 门控循环单元（GRU）【动手学深度学习v2】】 https://www.bilibili.com/video/BV1mf4y157N2/?share_source=copy_web&vd_source=5d4accef9045e3ed4e08bbb7a80f3c70

极端情况

Z为0，R为1，就退化成RNN
Z为1，完全不看Ht，也即完全忽略现在的Xt输入
Z为0，完全不看Ht-1

所以Z update门控制了Ht-1和Ht（Xt输入）之间的权衡。R reset门则控制着Ht-1在下一个Ht更新中的权重占比

长短期记忆网络 LSTM

【57 长短期记忆网络（LSTM）【动手学深度学习v2】】 https://www.bilibili.com/video/BV1JU4y1H7PC/?share_source=copy_web&vd_source=5d4accef9045e3ed4e08bbb7a80f3c70

多了一个C，Candidate Memory

深度循环神经网络

如何加入更多的非线性？加入更多的隐藏层

双向循环神经网络

完形填空

不能用来预测，只能用来做特征提取、文本句子分类、翻译

机器翻译数据集

【60 机器翻译数据集【动手学深度学习v2】】 https://www.bilibili.com/video/BV1H64y1s7TH/?share_source=copy_web&vd_source=5d4accef9045e3ed4e08bbb7a80f3c70

数据预处理
- 提取每个句子，并且按空格把单词，字母分开（即token化，tokenize）
- 提取所有的词汇数量做直方图展示
- trancated，长的截取、短的填充
- 构造train_iter，其包含X，X_valid_len, Y, Y_valid_len

编码器与解码器

【61 编码器-解码器架构【动手学深度学习v2】】 https://www.bilibili.com/video/BV1c54y1E7YP/?share_source=copy_web&vd_source=5d4accef9045e3ed4e08bbb7a80f3c70

encoder and decoder

#@save
class EncoderDecoder(nn.Block):
    """编码器-解码器架构的基类"""
    def __init__(self, encoder, decoder, **kwargs):
        super(EncoderDecoder, self).__init__(**kwargs)
        self.encoder = encoder
        self.decoder = decoder

    def forward(self, enc_X, dec_X, *args):
        enc_outputs = self.encoder(enc_X, *args)
        dec_state = self.decoder.init_state(enc_outputs, *args)
        return self.decoder(dec_X, dec_state)