scikit-learn - 随机森林“特征重要性”

时间：2021-02-05 07:15:19

标签： scikit-learn random-forest

我目前正在研究随机森林分类器。随机森林分类器的参数之一是“标准”，它有 2 个选项：基尼系数或熵。低基尼值是优选的，高熵值是优选的。默认情况下，gini 是随机森林分类器的标准。

sklearn 提供了一个名为 feature_importances_ 的属性，我们在这里获取提供的属性/特征的值。通过使用我们可以选择一些特征并使用“threshold and SelectFromModel”消除一些特征

我的疑问是，这些 feature_importances_ 的计算依据是什么？假设默认标准“Gini”可用。如果我假设 feature_importances_ 是“基尼重要性”，那么低值是首选，但在特征重要性方面，高值是首选

答案 0 :(得分：2)

features_importances_ 总是输出特征的重要性。 值越大，特征越重要，不要考虑基尼系数或熵准则，没关系。标准用于构建模型。在训练模型后应用特征重要性，您只需“分析”并观察哪些值在您训练的模型中更相关。

此外，您会看到所有 features_importances_ 总和为 1，因此重要性也被视为百分比。

由于 RandomForest 由几棵树组成，所以特征重要性在所有树上取平均值。