随机森林“特征重要性”

时间:2021-02-05 07:15:19

标签: scikit-learn random-forest

我目前正在研究随机森林分类器。随机森林分类器的参数之一是“标准”,它有 2 个选项:基尼系数或熵。低基尼值是优选的,高熵值是优选的。默认情况下,gini 是随机森林分类器的标准。

sklearn 提供了一个名为 feature_importances_ 的属性,我们在这里获取提供的属性/特征的值。通过使用我们可以选择一些特征并使用“threshold and SelectFromModel”消除一些特征

我的疑问是,这些 feature_importances_ 的计算依据是什么?假设默认标准“Gini”可用。如果我假设 feature_importances_ 是“基尼重要性”,那么低值是首选,但在特征重要性方面,高值是首选

1 个答案:

答案 0 :(得分:2)

features_importances_ 总是输出特征的重要性。 值越大,特征越重要,不要考虑基尼系数或熵准则,没关系。标准用于构建模型。在训练模型后应用特征重要性,您只需“分析”并观察哪些值在您训练的模型中更相关。

此外,您会看到所有 features_importances_ 总和为 1,因此重要性也被视为百分比。

由于 RandomForest 由几棵树组成,所以特征重要性在所有树上取平均值。