机器学习中的过度拟合和噪音是什么?

时间:2017-07-12 15:39:34

标签: machine-learning classification noise

任何人都可以解释ML中的过度拟合和噪音吗? 这可以在参数化的分类器中发生吗?如何知道模型是否过度拟合数据?

2 个答案:

答案 0 :(得分:2)

在ML中,过度拟合意味着模型在训练数据上表现良好,但不能很好地概括新数据。当模型相对于训练数据的数量和噪声过于复杂时,会发生这种情况。那么,你怎么知道你的数据过度?在您构建模型之后,您可以根据您的训练集进行测试,并获得光荣的结果。但是,当您根据测试集或现实生活进行测试时,预测的准确性将非常低。所以,是时候采取纠正措施了。你可以,

  • 通过减少训练数据中的属性数量来简化模型
  • 收集更多培训数据
  • 减少训练数据中的噪音。

是的,过度拟合可能发生在任何参数模型上。

答案 1 :(得分:1)

过度拟合是指具有预测能力的模型过于适合训练数据的情况。当引入新的测试数据时,这样的模型将产生非常模糊的结果。在这里,训练误差将非常低,因为模型已经在非常适应的位置调整并针对训练数据进行了调整。变成低训练误差现象的情况称为低偏差。类似地,当引入测试数据时,由于上述条件,测试数据中的误差度量将非常高。这种模型称为高方差模型。

enter image description here

反之,在拟合条件下,您的模型无法很好地拟合到训练数据本身中,从而被称为高偏差。这样的模型也不能期望在测试数据中提供良好的准确性。由于拟合至测试数据时存在较大误差,因此该模型也可以称为高方差模型。

通常,我们期望一个好的模型总是一个低偏差/低方差的模型。

有很多减少过度拟合的方法,但是许多方法都是特定于模型特性的,例如-

·弹性网法(回归)

·套索方法(回归)

·脊线法(回归)

· RELU激活功能(神经网络)

·减少隐藏层(神经网络)的数量

·修剪(决策树回归和分类)

没有定义的减少拟合不足的方法,但是从理论上讲,如果非常仔细地选择过程特征,则可以删除拟合不足,因为模型将始终尝试使其自身变得过度拟合而不是过度拟合。

如果数据含糊不清,并且未执行正确的EDA,也会导致拟合不足。因此,始终建议在任何机器学习过程之前都拥有适当的eda。

是的,它也可能出现在参数分类器中。

您可以通过一些评估指标来检测过度拟合-

  • 如果是回归模型,则R Squared,Adj R Squared,RMSE,MAE等指标将太高。
  • 如果是分类,则诸如准确性,精度等指标将太高。