C4.5决策树:分类概率分布?

时间:2012-08-07 22:00:07

标签: machine-learning data-mining weka decision-tree

我正在使用Weka的J48(C4.5)决策树分类器。一般来说,对于决策树,一旦你击中叶子就能确定分类概率分布吗?我知道Naive Bayes,每次分类尝试都会产生分类分布。

如果可以使用决策树,Weka J48树是否可以使用此功能?我也可以尝试实现自己的树。

1 个答案:

答案 0 :(得分:6)

由于每个叶子都有一个分类决策,实际上是一个离散分布,一个对于它所指出的类有100%,对于所有其他类有0。如果需要,您可以使用训练集为所有内部节点生成分布。

如果你在学习树之后进行修剪,你可以通过树重新运行训练集,并用每个实际课程落在那片叶子中的频率标记每片叶子,这将是你的分布。

编辑:例如,一旦你得到你的树。您可以为每个节点关联每个类的一个bin的直方图。然后对训练集进行分类,如果您通过树中的节点,则将一个节点添加到该类的相应bin中。在完成整个训练集之后,只需将每个直方图标准化以添加1.如果您觉得叶子太接近100%,则可以通过使用每个直方图的熵来确定进一步修剪的内容。