8.4.RNN

RNN 基础模型

$$bold(H)^(in n times h)t = phi(bold(X^(in n times d "输入维度")) bold(W(x h)^(in d times h)) + bold(H)(t - 1)^(in h times h) bold(W)(h h)^(in h times h) b_h)$$

$$O_t = H_t W_(h q "输出维度") + b_q$$

这里 $W_(x h), W_(h h)$ 极其类似于单隐藏层感知机中的隐藏层，只是前一刻的隐藏层输出会成为下一刻隐藏层的输入的一部分。而 $H_t$ 隐状态则存储在网络之外。

Perplexity 困惑度

$$exp(- 1 / n sum_(t = 1)^(n) log P(x_t | x_(t - 1), ..., x_1))$$

可以直接利用神经网络输出的概率，评估它有多自信。当每个输出的概率均为 $1$ 时，困惑度为 $1$，当概率为 $0$ 时困惑度正无穷，当概率为均匀分布时困惑度为唯一词元数（也是未压缩情况下存储序列最好的编码方式）。看到一个语言模型报告其 perplexity 为 $109$ 时，直观理解为它每次输出认为有 $109$ 个词作为下一个词的合理选择。ref: http://sentiment-mining.blogspot.com/2016/11/perplexity.html