更多训练数据可减少差异

时间:2013-12-27 16:01:04

标签: machine-learning artificial-intelligence classification

据我所知,高方差意味着模型本身存在过度拟合的问题。但在Andrew Ng的视频讲座中,他提到more training data can reduce the high variance。详细原因是什么?

2 个答案:

答案 0 :(得分:2)

基本上,如果相对于训练集大小的方差太大,模型将会过度拟合。

如果您说5个自由度,则可以完美匹配(拟合)5个样本。但是你不能完全匹配1000个样本。

因此,通过添加更多数据样本(因此希望增加数据集的方差),您可以防止过度拟合。

不幸的是,很难获得更多数据。减少自由度会更容易。

答案 1 :(得分:0)

1-更多训练数据大小导致SNR(信噪比)增加 2-提高SNR意味着降低了噪声。 3-当噪声减小时,模型的方差将减小。 请注意噪声引起的变化(干净的数据不会引起模型变化)