如果训练集中的示例太少,如何使用ID3修剪决策树构建。
我无法将其分为训练,验证和测试集,所以这是不可能的。
是否有可能使用的统计方法或类似的东西?
答案 0 :(得分:3)
当数据量较少时,可以使用交叉验证来训练和修剪数据集。这个想法很简单。您将数据划分为N组,并使用N-1训练树。最后一组用作修剪测试集。然后你在N组中选择另一组来省略,并做同样的事情。重复此操作直到您遗漏所有集合。这意味着你将建造N树。您将使用这N个树来计算树的最佳大小,然后使用计算来训练整个数据集以修剪该树。它比我在这里有效描述的更复杂,但这里有一篇关于如何使交叉验证适应ID3的文章。
Decision Tree Cross Validation
已经对交叉验证的正确分段进行了大量研究,并且已经发现N = 10给出了给定额外处理时间的最佳结果。交叉验证会大大增加您的计算时间(N次),但是当您拥有较少的数据时,它可以克服少量样本。而且,由于您没有大量数据意味着使用交叉验证在计算上并不是那么糟糕。