不使用开发集时偏向

时间:2013-08-15 21:30:22

标签: machine-learning

我正在使用10倍交叉验证在Weka中进行小型分类任务。对于特征选择和调整分类器的参数,我使用了一小部分数据。我通常知道应该使用火车和开发装置。但由于时间和计算能力不足,我只使用了所有数据的一小部分。这会以任何方式偏向结果吗?谢谢!

1 个答案:

答案 0 :(得分:1)

是。根据偏见的定义,使用小集合意味着您将对您决定训练的任何部分有更高的偏见。如果你从较大的数据集中随机选择小样本,这种偏差将大大降低。

如果您只是使用一小组数据,那么10倍交叉验证就没有多大意义。交叉验证的想法是将大型数据集分成多个部分,使用它们的交替部分作为训练集和测试集进行训练,迭代直到找到所有交叉验证集的最佳解决方案。

如果你没有太多的时间或计算能力,我的第一个建议是降低你的10倍CV检查。这意味着您可以在相同的计算时间内包含更大部分的数据集,并快速评估Weka中的许多不同模型,然后再决定哪些模型具有更大的前景。

如果你有选项,对于你的最终数据运行,我会高度建议使用全套,但是当你决定使用哪种算法时,使用它的一部分并不可怕集。