重要变量的决策树

时间:2016-05-02 20:55:11

标签: r machine-learning statistics classification decision-tree

如何使用决策树图来确定重要变量,我知道哪一个信息增益最大应该在树的根中,这意味着具有小熵,所以这是我的图,如果我想知道哪些变量是重要的我怎么解释

enter image description here

1 个答案:

答案 0 :(得分:2)

对您来说意义何在?在每个节点,变量在给定上下文的情况下选择它是最重要的,并且假设通过信息增益进行选择实际上将起作用(并非总是如此)。例如,在节点11处,BB是给定AA> 20的最重要的鉴别器。

显然,AA和BB是最有用的,假设通过信息增益选择提供了分区数据的最佳方法。其余的进一步完善。 C和N将是下一个。

你应该问的是:我应该保留所有节点吗?

答案取决于很多事情,可能没有最佳答案。 一种方法是使用每个叶子的总案例数并合并它们。

根据你的形象,我不确定如何做到这一点。它并不是很清楚在叶子上显示什么以及什么' n'是。也不确定是什么' p'是。