应用错误收集

时间：2017-05-24 16:06:45

标签： python machine-learning scikit-learn feature-selection

我正在使用scikit-learn的渐变增强树分类器GradientBoostingClassifier。它在feature_importances_中提供了功能重要性分数。如何计算这些要素的重要性？

我想了解scikit-learn使用的算法，以帮助我理解如何解释这些数字。该算法未在文档中列出。

答案 0 :(得分：7)

scikit-learn文档中记录了elsewhere。特别是，它是如何工作的：

对于每棵树，我们计算特征F的特征重要性，作为将遍历基于特征F分割的节点的样本分数（参见here）。然后，我们在所有树中平均这些数字（如here所述）。

没有准确描述scikit-learn如何估计将遍历在特征F上分割的树节点的节点分数。

解释：分数将在[0,1]范围内。分数越高意味着该功能越重要。不要指望得分总和为1;他们没有像那样正常化。