我有两个不同的数据集,datset X和数据集Y ...我从中计算用于分类的特征..
案例1.当我将两者合并为一个大型数据集然后使用10倍交叉验证时,我得到非常好的分类结果,准确性和AUC> 95%
情况2。然而,如果我使用其中一个数据集进行训练而另一个数据集进行测试,结果会严重下降,准确性和AUC变为~50%
我的问题是:
哪个案例的结果更可靠?
为什么结果的巨大差异??
谢谢..
答案 0 :(得分:1)
获取数据集的方式可能存在偏差,导致您获得最差结果。
阅读this。
另一件事是,在一个案例中,您正在使用较小的数据集训练您的分类器(两者组合较大,假设它们大小相同,即使交叉验证为10倍)。 必然会导致较差的表现。
所以我的答案是:
取决于您如何获得两个数据集以及如何使用最终分类器。
训练集的大小和偏见在如何获得它们方面存在差异。