使用交叉验证可以提高准确度,而无需进行减少

时间:2015-02-20 01:02:50

标签: machine-learning naivebayes

我有一个关于交叉验证的问题:我正在使用Naive Bayes分类器按作者对博客文章进行分类。当我在没有k折交叉验证的情况下验证我的数据集时,我得到的精度得分为0.6,但是当我进行k折交叉验证时,每次折叠都会提高精度(大于0.8)。

例如:

  

(手动分割):验证套装尺寸:1452,训练套装尺寸:13063,准确度:0.6033057851239669

然后

  

(具有k倍):折叠0 - >训练集大小:13063,验证集大小:1452准确度:0.8039702233250621(所有折叠均超过0.8)

等...

为什么会这样?

1 个答案:

答案 0 :(得分:1)

有几个原因可能发生:

  1. 您的"手册"拆分不是随机的,你碰巧选择了更多难以预测的异常值。你是如何做这种分裂的?

  2. k-fold CV中的k是多少?我不确定您的验证集大小是什么意思,您的折叠大小为k倍CV。没有验证集,您使用整个数据运行交叉验证。您确定正确运行k-fold交叉验证吗?

  3. 通常,人们选择k = 10进行k折交叉验证。如果使用整个数据正确运行它,则应该依赖其结果而不是其他结果。