神经网络与BP算法

最近在coursera上看Andrew Ng的machine learning，其中提到了BP算法，但没有给出具体的推导过程。因此想写一篇笔记，把这个算法的逻辑理清楚。

1. 神经网络

神经网络是一种模仿动物神经网络行为特征，进行分布式并行信息处理的算法数学模型。

神经网络通常由输入层 $x$ 、隐层和输出层 $h$ 构成。输入层的每个神经元代表一个特征，输出层的每个神经元代表一个分类标签，而隐层的层数和神经元数目则由人工设定。

一个典型的3层神经网络如图所示：

设第 $l$ 层神经元个数为 $s_l$ ，其中第 $i$ 个神经元为 $a_i^{(l)}$ 。
相邻两层神经元的转移如下：

$z^{(l+1)}=\bar{\Theta^{(l)}}\bar{a^{(l)}}, a^{(l+1)}=g(z^{(l+1)})$

其中：

$\bar{a^{(l)}}=\begin{bmatrix}1\\a^{(l)}\end{bmatrix}$
$\Theta^{(l)}\in R^{s_{l+1}\times s_l}$ 为权重矩阵， $\bar{\Theta^{(l)}}=\begin{bmatrix}\Theta_0^{(l)}&\Theta^{(l)}\end{bmatrix}$ 。
$g (z)$ 为激励函数，常用sigmoid函数 $g(z)=\frac{1}{1+e^{-z}}$ 。

2. 目标函数

$J(\Theta)=-\text{mean}(y\log h+(1-y)\log (1-h))+\frac{\lambda}{2m}||\Theta||^2$ 。

求 $\min_\Theta J(\Theta)$ 需要利用梯度下降法，这需要求出每一步的 $\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta)$ 。

直接求导比较麻烦，可以利用BP算法递推求解。

3. BP算法

第一步：求出 $\frac{\partial}{\partial h}J(\Theta)$ 。
$\frac{\partial}{\partial h}J(\Theta)=\frac{h-y}{mh\circ (1-h)}$

第二步：从后往前依次求出 $\frac{\partial}{\partial a^{(l)}}J(\Theta)$
$\frac{\partial J}{\partial \bar{a^{(l)}}}=\frac{\partial J}{\partial a^{(l+1)}}\frac{\partial a^{(l+1)}}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial \bar{a^{(l)}}}=\frac{\partial J}{\partial a^{(l+1)}}\circ g'(z^{(l+1)})\bar{\Theta^{(l)}}$

第三步：求出 $\frac{\partial}{\partial \Theta_{ij}^{(l)}}J(\Theta)$ 。
$\frac{\partial J}{\partial \Theta^{(l)}}=\frac{\partial J}{\partial a^{(l+1)}}\frac{\partial a^{(l+1)}}{\partial z^{(l+1)}}\frac{\partial z^{(l+1)}}{\partial \bar{\Theta^{(l)}}}=\frac{\partial J}{\partial a^{(l+1)}}\circ g'(z^{(l+1)})\bar{a^{(l)}}$

3b1b的视频