使用在训练阶段使用的完全相同的数据集进行交叉验证是否合适?

时间:2016-01-31 20:13:50

标签: validation machine-learning weka cross-validation supervised-learning

我正在使用Weka API来测试某些算法的性能。如果我想按如下方式划分数据集:

  • 70%用于培训
  • 10%用于验证
  • 20%用于测试

对于验证阶段,我应该对10%划分的新数据使用交叉验证方法吗?或者对已经训练过的70%数据应用交叉验证是否更好?为什么?

1 个答案:

答案 0 :(得分:3)

它实际上非常特定于问题,但总的来说 - 它取决于数据集的大小。如果您有大数据集,那么即使子样本也具有代表性,因此您可以将所有内容拆分一次以进行训练/有效/测试,然后运行典型的优化和测试例程。另一方面,如果你有相当小的数据(~1000个样本),那么实际上测试和验证都需要CV(或其他技术,如错误0.632)。所有关于获得的误差估计的统计显着性都是如此。如果数据很小 - 您需要生成多个实验(CV)以获得合理的估算值;如果你有100,000个样本,那么即使10%也应该足以用作有效的误差估计量。