模型可以同时具有高偏差和高偏差吗?过度拟合和不合适?

时间:2015-08-22 21:54:32

标签: machine-learning data-modeling variance supervised-learning

正如我在创建监督学习模型时所理解的那样,如果我们做出非常简单的假设(例如,如果我们的函数是线性的),我们的模型可能会有很大的偏差,导致算法错过我们的特征与目标输出之间的关系。在错误。这是不合适的。

另一方面,如果我们使算法过于强大(许多多项式特征),它会对我们训练集中的小波动非常敏感,导致过度拟合:对训练数据中的随机噪声进行建模,而不是预期产出。这是过度拟合。

image showing underfitting and overfitting

这对我来说很有意义,但我听说一个模型可以同时具有很大的差异和高偏差,我只是不明白这是怎么回事。如果高偏差和高方差是欠拟合和过度拟合的同义词,那么如何在同一模型上同时具有过度拟合和欠拟合?可能吗?怎么会发生?它确实发生时会是什么样子?

1 个答案:

答案 0 :(得分:5)

想象一下回归问题。我定义了一个分类器,它输出训练数据中观察到的最大目标变量,用于所有可能的输入。

这个模型都是有偏见的(无论输入多么丰富或多变都只能代表一个单一的输出)并且具有高方差(数据集的最大值将在数据集之间表现出很多变化)。

你在某种程度上是正确的,偏见意味着一个模型可能不合适,而方差意味着它容易过度拟合,但它们并不完全相同。