如何在非顺序keras模型中包含批量标准化

时间:2017-09-20 08:12:22

标签: deep-learning keras conv-neural-network batch-normalization nonsequential

我是DL和Keras的新手。目前我尝试实现一个类似Unet的CNN,现在我想将批量规范化层包含到我的非顺序模型中,但现在还不是这样。

这是我目前试图加入它:

input_1 = Input((X_train.shape[1],X_train.shape[2], X_train.shape[3]))

conv1 = Conv2D(16, (3,3), strides=(2,2), activation='relu', padding='same')(input_1)
batch1 = BatchNormalization(axis=3)(conv1)
conv2 = Conv2D(32, (3,3), strides=(2,2), activation='relu', padding='same')(batch1)
batch2 = BatchNormalization(axis=3)(conv2)
conv3 = Conv2D(64, (3,3), strides=(2,2), activation='relu', padding='same')(batch2)
batch3 = BatchNormalization(axis=3)(conv3)
conv4 = Conv2D(128, (3,3), strides=(2,2), activation='relu', padding='same')(batch3)
batch4 = BatchNormalization(axis=3)(conv4)
conv5 = Conv2D(256, (3,3), strides=(2,2), activation='relu', padding='same')(batch4)
batch5 = BatchNormalization(axis=3)(conv5)
conv6 = Conv2D(512, (3,3), strides=(2,2), activation='relu', padding='same')(batch5)
drop1 = Dropout(0.25)(conv6)

upconv1 = Conv2DTranspose(256, (3,3), strides=(1,1), padding='same')(drop1)
upconv2 = Conv2DTranspose(128, (3,3), strides=(2,2), padding='same')(upconv1)
upconv3 = Conv2DTranspose(64, (3,3), strides=(2,2), padding='same')(upconv2)
upconv4 = Conv2DTranspose(32, (3,3), strides=(2,2), padding='same')(upconv3)
upconv5 = Conv2DTranspose(16, (3,3), strides=(2,2), padding='same')(upconv4)
upconv5_1 = concatenate([upconv5,conv2], axis=3)
upconv6 = Conv2DTranspose(8, (3,3), strides=(2,2), padding='same')(upconv5_1)
upconv6_1 = concatenate([upconv6,conv1], axis=3)
upconv7 = Conv2DTranspose(1, (3,3), strides=(2,2), activation='linear', padding='same')(upconv6_1)

model = Model(outputs=upconv7, inputs=input_1)

批量标准化是否以正确的方式使用?在keras文档中,我读到你通常想要标准化"特征轴"!? 这是模型摘要中的一小段摘录:

====================================================================================================
input_1 (InputLayer)             (None, 512, 512, 9)   0
____________________________________________________________________________________________________
conv2d_1 (Conv2D)                (None, 256, 256, 16)  1312        input_1[0][0]
____________________________________________________________________________________________________
conv2d_2 (Conv2D)                (None, 128, 128, 32)  4640        conv2d_1[0][0]
____________________________________________________________________________________________________
conv2d_3 (Conv2D)                (None, 64, 64, 64)    18496       conv2d_2[0][0]
____________________________________________________________________________________________________

在这种情况下,我的特征轴是轴3(从0开始计数),对吧? 我读到了关于是否应该在激活功能之前或之后实现批量标准化的讨论。在这种情况下,它是在激活功能之后使用的,对吗?是否有可能在激活功能之前使用它?

非常感谢您的帮助和反馈!真的很感激!

2 个答案:

答案 0 :(得分:7)

第1部分:批量标准化是否以正确的方式使用?

您调用BatchNormalization图层的方式是正确的;根据文档的建议,axis = 3就是您想要的。 请记住,对于模型,轴= 3等于默认设置,轴= -1,因此您无需明确调用它。

第2部分:在这种情况下,它是在激活功能之后使用的,对吗?是否有可能在激活功能之前使用它?

是的,the 2014 research paper by Ioffe and Szegedy中定义的批量标准化旨在在激活层之后用作减少内部协变量偏移的手段。您的代码在卷积层激活后正确应用了batchnorm。激活层之后的使用可以被认为是信息在到达下一层作为输入之前的“预处理步骤”。

出于这个原因,批量标准化也可以作为数据预处理步骤,您可以在输入层之后立即使用(如this response中所述)。但是,正如答案所提到的那样,不应滥用batchnorm;它的计算成本很高,可以强制你的模型近似线性行为(this answer更详细地讨论这个问题)。

在模型中的其他一些步骤中使用batchnorm(不是在激活层或输入层之后)对模型性能的影响很小;这是一个明确适用于激活层输出的过程。

根据我对U-net的经验,我在使用batcomborm之后只有在最大池化之前的卷积层之后才取得了很大的成功;由于这些张量在u-net体系结构中被重复使用,因此这有效地使计算上的“bang for my buck”加倍。除此之外,我不使用batchnorm(除非每个图像的平均像素强度超级异质,否则可能在输入上。)

答案 1 :(得分:-2)

轴3 =轴-1,这是默认参数。