我训练了一个模型,得到了不错的结果,但是后来我变得很贪婪,我想提高准确性,所以,我训练模型的时间越来越长,但徒劳无功!根据理论,在某些训练之后,验证准确性必须在某个时候开始下降(损失开始增加)!但这似乎从未发生。因此,我认为可能是NN过于简单以至于无法进行过拟合,因此我增加了它的容量,最终得到了数百万个参数,并对其进行了10,000个时期的训练,但仍然没有过拟合的情况发生。
问了同样的问题here,但答案却很令人满意。
那是什么意思?
答案 0 :(得分:1)
高容量型号是众所周知的。它们令人惊讶地抵抗过度拟合,这与经典的统计学习理论相反,经典的统计学习理论认为,如果没有明确的正则化,您将过度拟合。例如,this paper说
大多数具有学习参数的深度神经网络通常会泛化 从经验上讲非常好,甚至配备了更有效的 参数比训练样本的数量多,即高容量... 因此,统计学习理论无法解释泛化 深度学习模型的能力。
此外,this和this的论文都在谈论它。您可以继续阅读这些论文中的参考文献以了解更多信息。
就个人而言,即使经过数以万计的训练,我也从未见过高容量模型过拟合。如果您想让示例过度拟合,请使用Lenet 5 for Cifar10,具有ReLU激活功能,且没有辍学,并使用学习率0.01
的SGD对其进行培训。此模型中的训练参数数量约为600亿,与Cifar10(低容量模型)中的样本数量相同。在最多500-1000个时期之后,您会看到一个非常明显的过度拟合,随着时间的流逝,损失和错误会不断增加。