决策树中的特征重要性,离散化和标准

时间:2015-05-31 13:18:12

标签: classification decision-tree feature-selection entropy information-theory

我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性。

因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量。我猜,这相当于Fayyad&伊朗二元离散化。

最后,分类器返回一个名为" feature importances"的属性。

  

功能重要性。功能越高,功能越重要。   特征的重要性计算为(标准化)总计   减少该特征带来的标准。它也是众所周知的   作为基尼的重要性[R195]。

我的问题是,即使我使用信息获取来找到最佳分割,但是,#34;功能重要性是什么?"返回用熵准则找到的分裂中测量的基尼重要性的值?

1 个答案:

答案 0 :(得分:0)

是的!有一种迭代方法可以计算不同分裂点的基尼重要性,一旦达到终止标准(最小描述长度),就会返回最佳分裂点。您可以在此处找到有关玩具示例的更多信息:http://clear-lines.com/blog/post/Discretizing-a-continuous-variable-using-Entropy.aspx