反向传播算法 (Backpropagation)

反向传播算法的基本原理#

反向传播算法（Backpropagation）是神经网络训练的核心算法。它通过计算损失函数相对于网络权重的梯度，来更新权重以最小化预测误差。反向传播算法的基本思想是利用链式法则，从输出层开始向输入层逐层计算梯度。

数学推导#

若已经建立了一个神经网络，其具有输入层、隐藏层、与输出层。在输入 $\mathbf{x}$ 进行完成一轮前馈算法后产生了输出 $\hat{\mathbf{y}}$ (由于有其他上标，本节向量使用粗体标注)，我们训练集中预期的输出为 $\mathbf{y}$ ，那么我们获得的差值为 $\mathbf{y}-\hat{\mathbf{y}}$ 。

神经网络始终希望我们获得的输出与预期的输出一致，那么我们希望 $\mathbf{y}-\hat{\mathbf{y}}$ 总是最小的，若 $\mathbf{y}-\hat{\mathbf{y}}$ 较大，我们需要调整神经网络中任意 $l$ 层中第 $i$ 个节点的权重 $\mathbf{w}_{l,j}$ 以及阈值 $\theta_{l,j}$ ，以让 $\mathbf{y}-\hat{\mathbf{y}}$ 回归于 $\mathbf{0}$ 。

损失函数#

我们将模型的预测值与训练集中的标签值的差异用以衡量损失，有很多种方法衡量这种损失，不同的方法产生了不同的损失函数 $Loss$ ，最常用的是均方误差和类似均方误差来衡量损失。一般说来均方误差为：

Loss = MSE = \frac{1}{n}\sum_{i=0}^{n}(y_i-\hat{y}_i)^2

梯度计算#

为了直观调整 $Loss$ ，我们可以构建 $Loss$ 关于权重 $\mathbf{w}_{l,j}$ 以及阈值 $\theta_{l,j}$ 的函数。所有的权重为 $\mathbf{W}^{l,j(l)}=\mathbf{w}_{l,j}$ ，所有的阈值为 $\mathbf{\Theta}^{l,j(l)}=\theta_{l,j}$ 。

Loss = loss(\mathbf{W}, \mathbf{\Theta}, \mathbf{x}) \quad \text{with} \quad \mathbf{y} = \text{constant}

每一次前馈传播完成， $Loss$ 对应的 $\mathbf{y}$ 就确定下来了，而 $\hat{\mathbf{y}}$ 由 $\mathbf{W}$ 、 $\mathbf{\Theta}$ 与 $\mathbf{x}$ 决定。我们调整的目标对象为权重 $\mathbf{w}_{l,j}$ 以及阈值 $\theta_{l,j}$ ，因此我们需要得出权重与阈值的变化对于 $Loss$ 的影响，即：

\frac{\partial loss}{\partial\mathbf{w}_{l,j}} \quad \text{and} \quad \frac{\partial loss}{\partial\theta_{l,j}}

神经元计算#

由于我们要计算每一个层 $l$ 和它所属的每一个神经元 $j(l)$ 的权重 $\mathbf{w}_{l,j}$ 和阈值 $\theta_{l,j}$ ，因此要考虑每一个神经元的输入与输出。对于神经元 $j(l)$ ，其接收上一层的值，加权计算后并减去阈值后，得出结果 $Z_{l,j(l)}$ ，我们将这个值称为为它的输入。经过激活函数后得到输出 $A_{l,j(l)}$ ，即：

Z_{l,j(l)} = \mathbf{w}_{l,j(l)}^T \times \mathbf{A}_{l-1,j(l-1)}-\theta_{l,j(l)}

A_{l,j(l)} = \text{Active}(Z_{l,j(l)})

链式求导#

根据上述的前馈传播法则与复合函数的求导法则，我们可以计算损失函数 $loss(\mathbf{W},\mathbf{\Theta},\mathbf{x})$ 关于每一个神经元的权重 $\mathbf{w}_{l,j(l)}$ 和阈值 $\theta_{l,j(l)}$ 的偏导数：

\frac{\partial loss}{\partial\mathbf{w}_{l,j(l)}} = \frac{\partial loss}{\partial A_{l,j(l)}} \cdot \frac{\partial A_{l,j(l)}}{\partial Z_{l,j(l)}} \cdot \frac{\partial Z_{l,j(l)}}{\partial\mathbf{w}_{l,j(l)}}

\frac{\partial Loss}{\partial \theta_{l,j(l)}} = \frac{\partial Loss}{\partial A_{l,j(l)}} \cdot \frac{\partial A_{l,j(l)}}{\partial Z_{l,j(l)}} \cdot \frac{\partial Z_{l,j(l)}}{\partial \theta_{l,j}}

输出层计算#

回到我们的网络之中，一个重要的问题是，最后一层的输出是什么？这里我们使用 $l=end$ 表述，显然：

A_{end,j(end)} = \hat{y}_{j(end)}

当我们再次回顾 $MSE$ 函数、 $Z_{l,j(l)} = \mathbf{w}_{l,j(l)}^T \times \mathbf{A}_{l-1,j(l-1)}-\theta_{l,j(l)}$ 以及 $A_{l,j(l)} = \text{Active}(Z_{l,j(l)})$ 三个式子，我们从输出层开始，计算：

\frac{\partial loss}{\partial A_{end,j(end)}} \quad \frac{\partial A_{end,j(end)}}{\partial Z_{end,j(end)}} \quad \frac{\partial Z_{end,j(end)}}{\partial\mathbf{w}_{end,j(end)}} \quad \frac{\partial Loss}{\partial A_{end,j(end)}} \quad \frac{\partial A_{end,j(end)}}{\partial Z_{end,j(end)}} \quad \frac{\partial Z_{end,j(end)}}{\partial \theta_{end,j}}

隐藏层计算#

我们成功获取到了输出层中每一个神经元的 $loss(\mathbf{W},\mathbf{\Theta},\mathbf{x})$ 关于其自身权重 $\mathbf{w}_{l,j(l)}$ 与阈值 $\theta_{l,j(l)}$ 的偏导数。在偏导数的计算中，我们只剩下最后的问题了，隐藏层中的 $\frac{\partial loss}{\partial A_{l,j(l)}}$ 是如何计算的。我们只知道 $\frac{\partial loss}{\partial\hat{y}_{j(end)}}$ ，同样借助复合函数的求导法则：

\frac{\partial loss}{\partial A_{l,j(l)}} = \frac{\partial loss}{\partial\hat{y}_{j(end)}} \cdot \frac{\partial\hat{y}_{j(end)}}{\partial A_{l,j(l)}}

直观上，取 $l=end-1$ ，则：

\hat{y}_{j(end)} = A_{end,j(end)} = \text{Active}(\mathbf{w}_{end,j(end)}^T \times \mathbf{A}_{end-1,j(end-1)}-\theta_{end,j(end)})

若 $l \neq end-1$ ，我们可以一直进行链式求导:

\frac{\partial loss}{\partial A_{l,j(l)}} = \frac{\partial loss}{\partial\hat{y}_{j(end)}} \cdot \frac{\partial\hat{y}_{j(end)}}{\partial A_{end-1,j(end-1)}} \cdot \frac{\partial A_{end-1,j(end-1)}}{\partial A_{end-2,j(end-2)}} \ldots \frac{\partial A_{l+1,j(l+1)}}{\partial A_{l,j(l)}}

递推公式#

这样，我们从输入层开始如核裂变一样不断地传递下去，使用递推表述为：

\frac{\partial loss}{\partial A_{l,j(l)}} = \frac{\partial loss}{\partial A_{l+1,j(l+1)}} \cdot \frac{\partial A_{l+1,j(l+1)}}{\partial A_{l,j(l)}}

再次展开计算：

\frac{\partial A_{l+1,j(l+1)}}{\partial A_{l,j(l)}} = \frac{\partial A_{l+1,j(l+1)}}{\partial Z_{l,j(l)}} \cdot \frac{\partial Z_{l,j(l)}}{\partial A_{l,j(l)}} = w_{l,j(l)}

最终公式#

最后，把他们拼装起来:

\frac{\partial loss}{\partial\mathbf{w}_{l,j(l)}} = MSE'(\hat{\mathbf{y}}) \cdot \prod_{end-1}^{l}w_{l,j(l)} \cdot \text{Active}'(Z_{l,j(l)}) \cdot A_{l-1,j(l-1)}

\frac{\partial Loss}{\partial \theta_{l,j(l)}} = MSE'(\hat{\mathbf{y}}) \cdot \prod_{end-1}^{l}w_{l,j(l)} \cdot \text{Active}'(Z_{l,j(l)}) \cdot (-1)

$\text{Active}'(Z_{l,j(l)})$ 都是简单的函数，可以很轻易得到。 $MSE'(\hat{\mathbf{y}})$ 显然易得，那么我们完全计算出了损失函数对于每一个神经元地权重与阈值的偏导数。这意味着，我们获取了神经网络中 $\mathbf{w}_{l,j(l)}$ 与 $\theta_{l,j(l)}$ 的变动对 $Loss$ 的影响。

梯度下降更新#

回到神经网络训练的目标，我们是为了最小化 $Loss$ ，那么调整 $Loss$ 与 $\theta_{l,j(l)}$ 使得 $Loss$ 值减小由于偏导的可得性变得可行。

\nabla loss = \left(\frac{\partial loss}{\partial\mathbf{w}_{l,j(l)}},\frac{\partial Loss}{\partial \theta_{l,j(l)}}\right)

当我们计算出 $\nabla loss$ 后，将 $\mathbf{w}_{l,j(l)}$ 与 $\theta_{l,j(l)}$ 值向其梯度负方向调整 $\eta$ 倍，那么将导致 $loss$ 下降，同样使得 $\nabla loss$ 趋近于 $0$ 。这就是梯度下降的过程，也是计算每一层的每一个节点偏导的意义。

学习率#

我们只剩下最后的一个问题了， $\eta$ 的取值。 $\eta$ 就是梯度下降向最低点移动的程度，也被称为”学习率”，因为梯度是通过网络计算学习到的，因此学习多少这个获取的梯度值就是学习率本身的含义。学习率过大会导致模型调整错过最低点，过小导致收敛缓慢。常见的学习率可以手动调整，也有使用退火算法进行。

权重更新公式#

最后给出我们的最终目标式子：

\mathbf{w}_{l,j(l)} = \mathbf{w}_{l,j(l)}(1-\eta\frac{\partial loss}{\partial\mathbf{w}_{l,j(l)}})

\theta_{l,j(l)} = \theta_{l,j(l)}(1-\eta\frac{\partial loss}{\partial\theta_{l,j(l)}})