不同大小的训练数据导致准确度波动

时间:2016-04-24 05:29:25

标签: machine-learning

我目前正在开展一个项目。我遇到了一个问题,即分类器的准确性随着训练数据集的大小而波动。 例如:

Training data set% |Accuracy %
10%                | 50
20%                | 60
30%                | 55
40%                | 65
50%                | 80
60%                | 70
....               | ...

我怀疑的是,我选择的功能很弱......就像那些功能非常多样化而且没有主导功能。有没有人有这方面的其他解决方案?

1 个答案:

答案 0 :(得分:0)

这种“波动”意味着您的模型具有高方差,这可能是由数据集的大小引起的。如果您不想观察波动,您的训练集大小(使用10%!)应足够大,以代表您的问题。如果您的问题至少有点复杂,并且不是2D中的简单二进制分类,这意味着您应该收集~10,000个样本(因此10%是1000)。否则 - 这没什么奇怪的。您可以尝试以自助方式收集此准确度(替换样本以创建训练集)并重复次数的hundreads - 这可以在不牺牲统计意义的情况下稳定结果。