任何人都可以解释ML中的过度拟合和噪音吗? 这可以在参数化的分类器中发生吗?如何知道模型是否过度拟合数据?
答案 0 :(得分:2)
在ML中,过度拟合意味着模型在训练数据上表现良好,但不能很好地概括新数据。当模型相对于训练数据的数量和噪声过于复杂时,会发生这种情况。那么,你怎么知道你的数据过度?在您构建模型之后,您可以根据您的训练集进行测试,并获得光荣的结果。但是,当您根据测试集或现实生活进行测试时,预测的准确性将非常低。所以,是时候采取纠正措施了。你可以,
是的,过度拟合可能发生在任何参数模型上。
答案 1 :(得分:1)
过度拟合是指具有预测能力的模型过于适合训练数据的情况。当引入新的测试数据时,这样的模型将产生非常模糊的结果。在这里,训练误差将非常低,因为模型已经在非常适应的位置调整并针对训练数据进行了调整。变成低训练误差现象的情况称为低偏差。类似地,当引入测试数据时,由于上述条件,测试数据中的误差度量将非常高。这种模型称为高方差模型。
反之,在拟合条件下,您的模型无法很好地拟合到训练数据本身中,从而被称为高偏差。这样的模型也不能期望在测试数据中提供良好的准确性。由于拟合至测试数据时存在较大误差,因此该模型也可以称为高方差模型。
通常,我们期望一个好的模型总是一个低偏差/低方差的模型。
有很多减少过度拟合的方法,但是许多方法都是特定于模型特性的,例如-
·弹性网法(回归)
·套索方法(回归)
·脊线法(回归)
· RELU激活功能(神经网络)
·减少隐藏层(神经网络)的数量
·修剪(决策树回归和分类)等
没有定义的减少拟合不足的方法,但是从理论上讲,如果非常仔细地选择过程特征,则可以删除拟合不足,因为模型将始终尝试使其自身变得过度拟合而不是过度拟合。
如果数据含糊不清,并且未执行正确的EDA,也会导致拟合不足。因此,始终建议在任何机器学习过程之前都拥有适当的eda。
是的,它也可能出现在参数分类器中。
您可以通过一些评估指标来检测过度拟合-