rnn梯度弥散 LSTM无梯度弥散-白红宇

rnn梯度弥散 LSTM无梯度弥散

阅读量：4146 次

发布时间：2019-05-25

本文共 3322 字，大约阅读时间需要 11 分钟。

之前看过，现在突然想不起，真的是好记性不如烂笔头，希望大家在看的时候能够拿笔和纸跟着推导一遍，加深理解。

转自：

1.RNN梯度弥散和爆炸的原因

经典的RNN结构如下图所示：

假设我们的时间序列只有三段，

S_0

为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：

假设在t=3时刻，损失函数为

L_3=\frac{1}{2}(Y_3-O_3)^2

则对于一次训练任务的损失函数为 $L=\sum_{t=1}^{T}L_t$ ，即每一时刻损失值的累加。

使用随机梯度下降法训练RNN其实就是对 $W_x$ 、 $W_s$ 、 $W_0$ 以及 $b_1$ $b_2$ 求偏导，并不断调整它们以使L尽可能达到最小的过程。

现在假设我们我们的时间序列只有三段，t1，t2，t3。

我们只对t3时刻的 [公式] 求偏导（其他时刻类似）：

可以看出对于

W_0

求偏导并没有长期依赖，但是对于

W_x

、

W_s

求偏导，会随着时间序列产生长期依赖。因为

S_t

随着时间序列向前传播，而

S_t

又是

W_x

、

W_s

的函数。

根据上述求偏导的过程，我们可以得出任意时刻对 $W_x$ 、 $W_s$ 求偏导的公式：

任意时刻对 $W_s$ 求偏导的公式同上。

如果加上激活函数， $S_j=tanh(W_xX_j+W_sS_{j-1}+b_1)$ ，

则

\prod_{j=k+1}^{t}\frac{\partial{S_j}}{\partial{S_{j-1}}}=\prod_{j=k+1}^{t}tanh^{&#x27;}W_s

激活函数tanh和它的导数图像如下。

在这里插入图片描述

由上图可以看出 $tanh^{'} \leq1$ ，对于训练过程大部分情况下tanh的导数是小于1的，因为很少情况下会出现 $W_xX_j+W_sS_{j-1}+b_1=0$ ，如果 $W_s$ 也是一个大于0小于1的值，则当t很大时 $\prod_{j=k+1}^{t}tanh^{'}W_s$ ，就会趋近于0，和 0.01^{50} 趋近与0是一个道理。同理当 $W_s$ 很大时 $\prod_{j=k+1}^{t}tanh^{'}W_s$ 就会趋近于无穷，这就是RNN中梯度消失和爆炸的原因。

至于怎么避免这种现象，让我在看看 $\frac{\partial{L_t}}{\partial{W_x}}=\sum_{k=0}^{t}\frac{\partial{L_t}}{\partial{O_t}}\frac{\partial{O_t}}{\partial{S_t}}(\prod_{j=k+1}^{t}\frac{\partial{S_j}}{\partial{S_{j-1}}})\frac{\partial{S_k}}{\partial{W_x}}$ 梯度消失和爆炸的根本原因就是 $\prod_{j=k+1}^{t}\frac{\partial{S_j}}{\partial{S_{j-1}}}$ 这一坨，要消除这种情况就需要把这一坨在求偏导的过程中去掉，至于怎么去掉，一种办法就是使 $\prod_{j=k+1}^{t}\frac{\partial{S_j}}{\partial{S_{j-1}}}\approx1$ 另一种办法就是使 $\prod_{j=k+1}^{t}\frac{\partial{S_j}}{\partial{S_{j-1}}}\approx0$ 。其实这就是LSTM做的事情，至于细节问题下节将进行介绍。

2.LSTM如何解决梯度消失问题

先上一张LSTM的经典图：

而LSTM可以抽象成这样：

在这里插入图片描述

三个×分别代表的就是forget gate，input gate，output gate，而我认为LSTM最关键的就是forget gate这个部件。这三个gate是如何控制流入流出的呢，其实就是通过下面 $f_t,i_t,o_t$ 三个函数来控制，因为 $\sigma(x)$ （代表sigmoid函数）的值是介于0到1之间的，刚好用趋近于0时表示流入不能通过gate，趋近于1时表示流入可以通过gate。