如果我的网络无论经过多长时间的培训或扩展其容量,都永远不会过拟合,那意味着什么?

时间:2019-04-22 12:47:52

标签: python tensorflow machine-learning keras deep-learning

我训练了一个模型,得到了不错的结果,但是后来我变得很贪婪,我想提高准确性,所以,我训练模型的时间越来越长,但徒劳无功!根据理论,在某些训练之后,验证准确性必须在某个时候开始下降(损失开始增加)!但这似乎从未发生。因此,我认为可能是NN过于简单以至于无法进行过拟合,因此我增加了它的容量,最终得到了数百万个参数,并对其进行了10,000个时期的训练,但仍然没有过拟合的情况发生。

问了同样的问题here,但答案却很令人满意。

那是什么意思?

1 个答案:

答案 0 :(得分:1)

高容量型号是众所周知的。它们令人惊讶地抵抗过度拟合,这与经典的统计学习理论相反,经典的统计学习理论认为,如果没有明确的正则化,您将过度拟合。例如,this paper

  

大多数具有学习参数的深度神经网络通常会泛化   从经验上讲非常好,甚至配备了更有效的   参数比训练样本的数量多,即高容量...   因此,统计学习理论无法解释泛化   深度学习模型的能力。

此外,thisthis的论文都在谈论它。您可以继续阅读这些论文中的参考文献以了解更多信息。

就个人而言,即使经过数以万计的训练,我也从未见过高容量模型过拟合。如果您想让示例过度拟合,请使用Lenet 5 for Cifar10,具有ReLU激活功能,且没有辍学,并使用学习率0.01的SGD对其进行培训。此模型中的训练参数数量约为600亿,与Cifar10(低容量模型)中的样本数量相同。在最多500-1000个时期之后,您会看到一个非常明显的过度拟合,随着时间的流逝,损失和错误会不断增加。