TensorFlow实现Batch Normalization

2020-02-22 23:24:38

字体：大中小

来源：转载

供稿：网友

一、BN（Batch Normalization）算法

1. 对数据进行归一化处理的重要性

神经网络学习过程的本质就是学习数据分布，在训练数据与测试数据分布不同情况下，模型的泛化能力就大大降低；另一方面，若训练过程中每批batch的数据分布也各不相同，那么网络每批迭代学习过程也会出现较大波动，使之更难趋于收敛，降低训练收敛速度。对于深层网络，网络前几层的微小变化都会被网络累积放大，则训练数据的分布变化问题会被放大，更加影响训练速度。

2. BN算法的强大之处

1）为了加速梯度下降算法的训练，我们可以采取指数衰减学习率等方法在初期快速学习，后期缓慢进入全局最优区域。使用BN算法后，就可以直接选择比较大的学习率，且设置很大的学习率衰减速度，大大提高训练速度。即使选择了较小的学习率，也会比以前不使用BN情况下的收敛速度快。总结就是BN算法具有快速收敛的特性。

2）BN具有提高网络泛化能力的特性。采用BN算法后，就可以移除针对过拟合问题而设置的dropout和L2正则化项，或者采用更小的L2正则化参数。

3）BN本身是一个归一化网络层，则局部响应归一化层（Local Response Normalization，LRN层）则可不需要了（Alexnet网络中使用到）。

3. BN算法概述

BN算法提出了变换重构，引入了可学习参数γ、β，这就是算法的关键之处：

引入这两个参数后，我们的网络便可以学习恢复出原是网络所要学习的特征分布，BN层的钱箱传到过程如下：

其中m为batchsize。BatchNormalization中所有的操作都是平滑可导，这使得back propagation可以有效运行并学到相应的参数γ，β。需要注意的一点是Batch Normalization在training和testing时行为有所差别。Training时μβ和σβ由当前batch计算得出；在Testing时μβ和σβ应使用Training时保存的均值或类似的经过处理的值，而不是由当前batch计算。

二、TensorFlow相关函数

1.tf.nn.moments(x, axes, shift=None, name=None, keep_dims=False)

x是输入张量，axes是在哪个维度上求解，即想要 normalize的维度, [0] 代表 batch 维度，如果是图像数据，可以传入 [0, 1, 2]，相当于求[batch, height, width] 的均值/方差，注意不要加入channel 维度。该函数返回两个张量，均值mean和方差variance。

2.tf.identity(input, name=None)

返回与输入张量input形状和内容一致的张量。

3.tf.nn.batch_normalization(x, mean, variance, offset, scale, variance_epsilon,name=None)

计算公式为scale(x - mean)/ variance + offset。

这些参数中，tf.nn.moments可得到均值mean和方差variance，offset和scale是可训练的，offset一般初始化为0，scale初始化为1，offset和scale的shape与mean相同，variance_epsilon参数设为一个很小的值如0.001。

上一篇：TensorFlow实现AutoEncoder自编码器

下一篇：python实现简单神经网络算法