分类中的交叉验证

时间:2015-12-05 18:21:52

标签: image-processing classification cross-validation

我有两个不同的数据集,datset X和数据集Y ...我从中计算用于分类的特征..

案例1.当我将两者合并为一个大型数据集然后使用10倍交叉验证时,我得到非常好的分类结果,准确性和AUC> 95%

情况2。然而,如果我使用其中一个数据集进行训练而另一个数据集进行测试,结果会严重下降,准确性和AUC变为~50%

我的问题是:

  1. 哪个案例的结果更可靠?

  2. 为什么结果的巨大差异??

  3. 谢谢..

1 个答案:

答案 0 :(得分:1)

获取数据集的方式可能存在偏差,导致您获得最差结果。

阅读this

另一件事是,在一个案例中,您正在使用较小的数据集训练您的分类器(两者组合较大,假设它们大小相同,即使交叉验证为10倍)。 必然会导致较差的表现。

所以我的答案是:

  1. 取决于您如何获得两个数据集以及如何使用最终分类器。

  2. 训练集的大小偏见在如何获得它们方面存在差异。