标签: python machine-learning scikit-learn feature-selection
我正在使用scikit-learn的渐变增强树分类器GradientBoostingClassifier。它在feature_importances_中提供了功能重要性分数。如何计算这些要素的重要性?
feature_importances_
我想了解scikit-learn使用的算法,以帮助我理解如何解释这些数字。该算法未在文档中列出。
答案 0 :(得分:7)
scikit-learn文档中记录了elsewhere。特别是,它是如何工作的:
对于每棵树,我们计算特征F的特征重要性,作为将遍历基于特征F分割的节点的样本分数(参见here)。然后,我们在所有树中平均这些数字(如here所述)。
没有准确描述scikit-learn如何估计将遍历在特征F上分割的树节点的节点分数。
解释:分数将在[0,1]范围内。分数越高意味着该功能越重要。不要指望得分总和为1;他们没有像那样正常化。