应用错误收集

交叉验证如何适用于这两棵树？

时间：2015-10-20 21:04:40

标签： validation tree weka cross-validation pruning

我在weka中有一棵树（ID3或J48）。它只有25个训练集。它学会了100％的准确性。我认为这对于训练集的准确性来说太高了。我怎么能理解它有没有过度问题的天气？（我想从这25个列车数据本身使用我的测试集 - 因为我没有任何测试）我交叉验证对于停止过度拟合是有好处的，但我想在使用交叉验证之前证明它。实际上我修剪了这棵树，并比较了修剪树和未修剪树之间的交叉验证准确性。但是我无法解释和理解在过度砍伐的树和修剪过的树之间准确度应该如何变化？（在这种情况下，我知道我的树有过度问题 - 但我怎么能推断？）其他方式呢？你能建议我吗？注意测试数据不可用。

1 个答案:

答案 0 :(得分：0)

这就是我要做的事情：

取25个数据点并使用10倍交叉验证。记录准确性（假设你的课程平衡/接近平衡）
获取训练精度并比较这两个准确度值。如果它们显着不同（比如100％的训练精度与85％的测试精度），那么这就是过度拟合的信号。从那时起，我会尝试增加数据点并绘制学习曲线，因为我增加它们。

注意：如果您没有任何测试数据，那么CV是唯一的选择，您从CV获得的结果应被视为测试结果。