解释sklearn ensamble方法中的feature_importances_

时间:2016-01-11 19:26:10

标签: python machine-learning scikit-learn feature-selection

预测后, feature_importances_ (特别是GradientBoostingClassifier但可能存在其他方法)保留要素重要性。根据文档,功能越高,功能越重要。

你知道返回的数字是什么意思吗?

我得到的值范围从0.02到10 ^ -6或0。

如果某个要素的重要性为0.02,那么它的重要性在于所有要素的2%,但这与预测准确度或预测相关性有何关系?我可以解释这个数字并理解这种特征的删除会如何影响预测吗?

1 个答案:

答案 0 :(得分:1)

sklearn合奏和树模块的主要作者Gilles Louppe对问题here做了很好的回应。

有多种方法可以量化决策树中的节点如何帮助将传入数据集划分为具有输出类的块,这些输出类比分割前更具预测性。一个这样的度量是gini importance,它是在节点处分割的数据集提供的输出类杂质减少的量度。此度量通过使用要素实际拆分的数据行的多少行加权并对整体中的所有决策树进行平均,确定了sklearn中的feature_importance_。