理解Keras的正规化

时间:2018-06-01 19:18:46

标签: python keras

我试图理解为什么Keras中的正则化语法看起来像它那样。

粗略地说,正则化是通过在与模型权重的某些函数成比例的损失函数中添加惩罚项来减少过度拟合的方法。因此,我希望正则化将被定义为模型损失函数规范的一部分。

然而,在Keras中,正则化是基于每层定义的。例如,考虑这种正规化的DNN模型:

input = Input(name='the_input', shape=(None, input_shape))
x = Dense(units = 250, activation='tanh', name='dense_1', kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
x = Dense(units = 28, name='dense_2',kernel_regularizer=l2, bias_regularizer=l2, activity_regularizer=l2)(x)
y_pred = Activation('softmax', name='softmax')(x)
mymodel= Model(inputs=input, outputs=y_pred)
mymodel.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'])

我原本预计Dense图层中的正则化参数不需要,我可以写下最后一行更像:

mymodel.compile(optimizer = 'adam', loss = 'categorical_crossentropy', metrics = ['accuracy'], regularization='l2')

这显然是错误的语法,但我希望有人可以详细说明为什么这种方式定义正则化以及使用层级正则化时实际发生的情况。

我不明白的另一件事是在什么情况下我会使用三种正规化选项中的每一种或全部:(kernel_regularizer, activity_regularizer, bias_regularizer)

1 个答案:

答案 0 :(得分:14)

让我们分解您问题的组成部分:

  1. 您对正规化的期望可能与前馈网络一致,其中惩罚项应用于整个网络的权重。但是当你将RNN与CNN等混合时,情况不一定如此,因此Keras选择了精细的谷物控制。也许为了便于设置,可以在API中为所有权重添加模型级的正则化。

  2. 当您使用图层正则化时,基本Layer类实际上是adds在训练时损失相应图层权重等损失的正则项。

  3. 现在在Keras,你可以经常将正则化应用于Dense层中的3个不同的事物。每一层都有不同的内核,如周期性等,所以对于这个问题,让我们看一下你感兴趣的内容,但同样大致适用于所有层:

    1. 内核:这适用于图层的实际权重,在密集中,它是 W <+ em> Wx + b
    2. 偏见:这是权重的偏向量,因此您可以为其应用不同的常规量, b Wx + b
    3. 活动:应用于输出向量, y y = f(Wx + b)