应用错误收集

从决策树获取分类概率

时间：2014-04-24 08:45:49

标签： python machine-learning decision-tree cart-analysis

我实施了基于CART算法的决策树，我有一个问题。现在我可以对数据进行分类，但我的任务不仅仅是对数据进行分类。我希望在末端节点中具有正确分类的概率。例如。我有包含A类和B类数据的数据集。当我将一个类的实例放到我的树中时，我希望看到实例属于A类和B类的概率。我怎样才能做到这一点？如何改进CART以在末端节点中进行概率分布？

1 个答案:

答案 0 :(得分：0)

当您使用训练数据集训练树时，每次对数据进行拆分时，左右节点最终会得到A类和B类的一定比例的实例。 A类（或B类）可以解释为概率。

例如，假设您的训练数据集包括A类中的50个项目和B类中的50个项目。您可以通过将数据拆分一次来构建一个级别的树。假设在拆分之后，左边的节点最终有40个A类实例和10个B类实例，右边节点有10个A类实例和40个B类实例。现在节点中的概率为40 /（对于左节点中的A类，10 + 40）= 80％，对于左节点中的A类，10 /（10 + 40）= 20％（对于B类，反之亦然）。

完全相同的情况适用于更深的树：您计算类的实例并计算比例。