为什么辍学会阻止卷积神经网络的收敛?

时间:2016-07-31 04:51:51

标签: neural-network tensorflow deep-learning

我正在使用tensorflow来训练一个带有22个类的15000个训练图像的一组。我有2个转换层和一个完全连接的层。我已经使用15000个图像训练了网络,并且在训练集上经历了收敛和高精度。

然而,我的测试集的准确度要低得多,所以我假设网络过度拟合。为了解决这个问题,我在网络的完全连接层之前添加了dropout。

但是,添加dropout会导致网络在多次迭代后永远不会收敛。我想知道为什么会这样。我甚至使用了高丢失概率(保持概率为.9)并且经历了相同的结果。

3 个答案:

答案 0 :(得分:0)

通过使你的保持辍学概率为0.9,这意味着在每次迭代中神经元连接有10%的几率下降。因此对于辍学也应该有一个最佳值。 / p>

This is taken from cs231 course

如上所述,您可以通过辍学了解我们也在扩展我们的神经元。上述情况为0.5退出。如果它然后再次出现不同的缩放比例。

所以基本上如果它的0.9丢失保持概率,我们需要将其缩放0.9。这意味着我们在测试中获得了0.1个更大的东西。

通过这个,你可以了解辍学的影响。因此,通过一些概率,它可以使您的节点等饱和,从而导致非收敛问题。

答案 1 :(得分:0)

您可以在卷积层之后将压差添加到密集层,并从卷积层中删除压差。如果您想要更多示例,则可以在每张图片上放置一些白噪声(5%随机像素),并对每张图片使用P,P'变体。这样可以改善您的结果。

答案 2 :(得分:0)

您不应将 0.9 丢掉,否则您在训练阶段就会失去功能。据我所见,大多数辍学学生的学习成绩介于0.2或0.5之间。但是,使用过多的辍学会在训练阶段造成一些问题,并且收敛时间较长,甚至在极少数情况下,也会导致网络学习错误。 您需要谨慎使用dropout,因为您可以看到dropout下面的图像会阻止要素进入下一层,而使用太多dropout或很高的dropout值可能会扼杀学习
DropoutImage