如何使用交叉验证方法制作决策树?

时间:2019-04-23 12:27:23

标签: algorithm decision-tree cross-validation

我想知道当我们使用交叉验证时如何制作决策树,在本教程中,我阅读了交叉验证,试图找到最佳准确性或最低错误率,但是如何精确地制作决策树却是不清楚。

例如,在K = 10中,它是否从其他10棵树中选择了最好的树?

还是尝试在树中选择所有冗余边缘?

我的意思是我不明白如何从另外10棵树中最终制成一棵最终树。

致谢。

2 个答案:

答案 0 :(得分:1)

我相信这是一个类似的问题:Help Understanding Cross Validation and Decision Trees

交叉验证用于更好地估计您要查看的用于评估ML算法性能的任何性能指标。在K = 10的情况下,您将在不同的数据拆分上重做10次树构建算法(例如ID3),每次您在9个部分上训练模型并评估其余部分的性能(验证集)。然后可以证明,现在将这10组的平均值作为性能估计值的偏差将减小。

假设我们在训练和验证集中进行数据集的拆分。训练集上的错误将过于乐观,因为部分原因可能是过度拟合。验证错误会更好,但是很糟糕,我们无法使用验证集中的信息来训练我们的模型,尤其是在我们数据可用性有限的情况下。您可以将交叉验证视为仍然利用所有可用数据的聪明方法。

答案 1 :(得分:1)

Cross Validation不是找到最佳模型的方法,而是“得出模型预测性能的更准确估计”。

因此,这并不意味着输出可能的最佳决策树,但是您可以例如以更高的统计意义相互评估不同的超参数设置(导致不同的决策树)。