如何为GradientBoostingClassifier计算要素重要性

时间:2017-05-24 16:06:45

标签: python machine-learning scikit-learn feature-selection

我正在使用scikit-learn的渐变增强树分类器GradientBoostingClassifier。它在feature_importances_中提供了功能重要性分数。如何计算这些要素的重要性?

我想了解scikit-learn使用的算法,以帮助我理解如何解释这些数字。该算法未在文档中列出。

1 个答案:

答案 0 :(得分:7)

scikit-learn文档中记录了elsewhere。特别是,它是如何工作的:

对于每棵树,我们计算特征F的特征重要性,作为将遍历基于特征F分割的节点的样本分数(参见here)。然后,我们在所有树中平均这些数字(如here所述)。

没有准确描述scikit-learn如何估计将遍历在特征F上分割的树节点的节点分数。

解释:分数将在[0,1]范围内。分数越高意味着该功能越重要。不要指望得分总和为1;他们没有像那样正常化。