减少(相对于延迟)神经网络中的过拟合

时间:2019-09-11 17:40:33

标签: machine-learning neural-network deep-learning regularized dropout

在神经网络中,正则化(例如L2,辍学)通常用于减少过度拟合。例如,下图显示了典型的损失与时期,有和没有辍学。实线=训练,虚线=验证,蓝色=基线(无辍学),橙色=有辍学。情节由Tensorflow教程提供。 losses with/without dropout 权重正则化的行为类似。

正则化会延迟验证损失开始增加的时期,但正则化显然不会不会降低验证损失的最小值(至少在我的模型和采用上述图解的教程中) )。

如果我们在验证损失最小时(为了避免过拟合)使用提前停止来停止训练,并且如果正则化仅延迟了最小验证损失点(相对于减小最小验证损失值),那么似乎不会导致正则化在具有更高泛化性的网络中,反而只会减慢训练速度。

如何使用正则化来减少最小验证损失(以改善模型通用性),而不是延迟它?如果正则化只是在延迟最小的验证损失而不是减少它,那么为什么要使用它呢?

1 个答案:

答案 0 :(得分:1)

从单个教程图过度概括可能不是一个好主意;这是original dropout paper的相关图:

enter image description here

很明显,如果辍学的结果是延迟收敛,那将没有太大用处。但是当然它总是 不能正常工作(正如您的情节清楚表明的那样),因此默认情况下不应使用 (可以说是这里的教训)... < / p>