Batch Normalization

原理与总结

Batch Normalization 能够使得数据进行归一处理，可以解决内部协变量偏移，可以缓解梯度饱和问题。

公式：

$\mu = \frac{1}{m}\sum_{i=1}^mx_i$ 求出数据的均值

$\sigma^2 = \frac{1}{m}\sum_{i=1}^m(x_i-\mu)^2$ 求出数据的方差

$\hat{x}_i=\frac{x_i-\mu}{\sqrt{\sigma^2+\epsilon}}$

$y_i=\gamma\hat{x}_i+\beta$

然后根据该公式，我推导了Batch Normalization的前向以及反向传播的值与梯度

这里主要是根据上面的公式进行代码编写 batchnorm的前向传播。这里要注意在train和test的不同。

这里是根据上图中推导的batchnorm的反向传播公式进行代码编写

测试结果：

根据图中的反向传播公式可以直接求出最后的反向传播公式

测试结果：

测试结果：

测试结果：

研究网络使用batchnorm之后的效果。

测试结果：
在这里插入图片描

Describe the results of this experiment, and try to give a reason why the experiment gave the results that it did.

batchnorm能够加快模型的收敛，这是因为batchnorm将数据进行归一化，使得每一层提取的特征更加规则。