应用错误收集

时间：2015-02-20 01:02:50

标签： machine-learning naivebayes

我有一个关于交叉验证的问题：我正在使用Naive Bayes分类器按作者对博客文章进行分类。当我在没有k折交叉验证的情况下验证我的数据集时，我得到的精度得分为0.6，但是当我进行k折交叉验证时，每次折叠都会提高精度（大于0.8）。

例如：

（手动分割）：验证套装尺寸：1452，训练套装尺寸：13063，准确度：0.6033057851239669

然后

（具有k倍）：折叠0 - >训练集大小：13063，验证集大小：1452准确度：0.8039702233250621（所有折叠均超过0.8）

等...

为什么会这样？

答案 0 :(得分：1)

有几个原因可能发生：

您的＆＃34;手册＆＃34;拆分不是随机的，你碰巧选择了更多难以预测的异常值。你是如何做这种分裂的？
k-fold CV中的k是多少？我不确定您的验证集大小是什么意思，您的折叠大小为k倍CV。没有验证集，您使用整个数据运行交叉验证。您确定正确运行k-fold交叉验证吗？

通常，人们选择k = 10进行k折交叉验证。如果使用整个数据正确运行它，则应该依赖其结果而不是其他结果。