我实施了基于CART算法的决策树,我有一个问题。现在我可以对数据进行分类,但我的任务不仅仅是对数据进行分类。我希望在末端节点中具有正确分类的概率。 例如。我有包含A类和B类数据的数据集。当我将一个类的实例放到我的树中时,我希望看到实例属于A类和B类的概率。 我怎样才能做到这一点?如何改进CART以在末端节点中进行概率分布?
答案 0 :(得分:0)
当您使用训练数据集训练树时,每次对数据进行拆分时,左右节点最终会得到A类和B类的一定比例的实例。 A类(或B类)可以解释为概率。
例如,假设您的训练数据集包括A类中的50个项目和B类中的50个项目。您可以通过将数据拆分一次来构建一个级别的树。假设在拆分之后,左边的节点最终有40个A类实例和10个B类实例,右边节点有10个A类实例和40个B类实例。现在节点中的概率为40 /(对于左节点中的A类,10 + 40)= 80%,对于左节点中的A类,10 /(10 + 40)= 20%(对于B类,反之亦然)。
完全相同的情况适用于更深的树:您计算类的实例并计算比例。