应用错误收集

在ML中，过度拟合意味着模型在训练数据上表现良好，但不能很好地概括新数据。当模型相对于训练数据的数量和噪声过于复杂时，会发生这种情况。那么，你怎么知道你的数据过度？在您构建模型之后，您可以根据您的训练集进行测试，并获得光荣的结果。但是，当您根据测试集或现实生活进行测试时，预测的准确性将非常低。所以，是时候采取纠正措施了。你可以，

通过减少训练数据中的属性数量来简化模型
收集更多培训数据
减少训练数据中的噪音。

是的，过度拟合可能发生在任何参数模型上。

过度拟合是指具有预测能力的模型过于适合训练数据的情况。当引入新的测试数据时，这样的模型将产生非常模糊的结果。在这里，训练误差将非常低，因为模型已经在非常适应的位置调整并针对训练数据进行了调整。变成低训练误差现象的情况称为低偏差。类似地，当引入测试数据时，由于上述条件，测试数据中的误差度量将非常高。这种模型称为高方差模型。

反之，在拟合条件下，您的模型无法很好地拟合到训练数据本身中，从而被称为高偏差。这样的模型也不能期望在测试数据中提供良好的准确性。由于拟合至测试数据时存在较大误差，因此该模型也可以称为高方差模型。

通常，我们期望一个好的模型总是一个低偏差/低方差的模型。

有很多减少过度拟合的方法，但是许多方法都是特定于模型特性的，例如-

·弹性网法（回归）

·套索方法（回归）

·脊线法（回归）

· RELU激活功能（神经网络）

·减少隐藏层（神经网络）的数量

·修剪（决策树回归和分类）等

没有定义的减少拟合不足的方法，但是从理论上讲，如果非常仔细地选择过程特征，则可以删除拟合不足，因为模型将始终尝试使其自身变得过度拟合而不是过度拟合。

如果数据含糊不清，并且未执行正确的EDA，也会导致拟合不足。因此，始终建议在任何机器学习过程之前都拥有适当的eda。

是的，它也可能出现在参数分类器中。

您可以通过一些评估指标来检测过度拟合-

如果是回归模型，则R Squared，Adj R Squared，RMSE，MAE等指标将太高。
如果是分类，则诸如准确性，精度等指标将太高。

机器学习中的过度拟合和噪音是什么？

2 个答案: