应用错误收集

辍学的Keras实现是否正确？

时间：2016-07-26 14:40:29

标签： machine-learning neural-network deep-learning keras regularized

辍学参考Keras的{{1}}实施。

以下摘录来自该文件：

这个想法是在测试时使用单个神经网络而不会丢失。该网络的权重是经过训练的缩小版本权重。如果在训练期间以概率p保留单位，则该单位的输出权重在测试时间乘以p为如图2所示。

Keras文档提到丢失仅在火车时使用，以及Dropout实施中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明，确实来自图层的输出只是在测试时间内传递。

此外，我发现在训练完成后我无法找到缩小权重的代码。我的理解是，这个缩放步骤对于使丢失工作从根本上是必要的，因为它相当于在“子网络”集合中获取中间层的预期输出。没有它，计算就不再被视为从这个“子网络”集合中进行采样。

那么，我的问题是，如果有的话，在Keras实施的辍学的缩放效果是什么？

更新1：好的，所以Keras使用反向丢失，虽然在Keras文档和代码中称为dropout。链接this paper 似乎并不表示这两者是等效的。答案也不是http://cs231n.github.io/neural-networks-2/#reg 。我可以看到他们做了类似的事情，但我还没有看到有人说他们完全一样。我认为他们不是。

这是一个新问题：辍学和倒退辍学是否相同？要清楚，我正在寻找说出他们是否存在的数学理由。

2 个答案:

答案 0 :(得分：8)

是。它正确实施。从Dropout发明之时起 - 人们也从实施的角度对其进行了改进。 Keras正在使用这种技术之一。它被称为反向丢失，您可以阅读here。

更新：

说实话 - 在严格的数学意义上，这两种方法并不相同。在倒置情况中，您将每个隐藏激活乘以dropout参数的倒数。但由于该导数是线性的，它相当于将所有梯度乘以相同的因子。要克服这种差异，你必须设置不同的学习重量。从这个角度来看，这种方法不同。但从实际角度来看 - 这种方法是等价的，因为：

如果您使用自动设置学习率的方法（如RMSProp或Adagrad） - 它几乎不会改变算法。
如果您使用自动设置学习率的方法 - 您必须考虑到辍学的随机性，以及由于在训练阶段某些神经元将被关闭的事实（在测试期间不会发生什么/评估阶段） - 您必须重新调整学习率以克服这种差异。概率论给我们提供了最佳的重新调用因子 - 它是压差参数的倒数，它使得损耗函数梯度长度的期望值在列车和测试/评估阶段都相同。

当然 - 以上两点都是关于反向辍学技术。

答案 1 :(得分：1)

摘自the original Dropout paper（第10节）：

在本文中，我们将辍学描述为一种方法，我们在训练时保留概率为p的单位，并在测试时将它们乘以系数p来缩小权重。实现相同效果的另一种方法是通过在训练时间乘以1 / p而不在测试时修改权重来放大保留的激活。这些方法与每层的学习率和权重初始化的适当缩放等效。