我目前正在研究随机森林分类器。随机森林分类器的参数之一是“标准”,它有 2 个选项:基尼系数或熵。低基尼值是优选的,高熵值是优选的。默认情况下,gini 是随机森林分类器的标准。
sklearn 提供了一个名为 feature_importances_
的属性,我们在这里获取提供的属性/特征的值。通过使用我们可以选择一些特征并使用“threshold and SelectFromModel”消除一些特征
我的疑问是,这些 feature_importances_
的计算依据是什么?假设默认标准“Gini”可用。如果我假设 feature_importances_
是“基尼重要性”,那么低值是首选,但在特征重要性方面,高值是首选
答案 0 :(得分:2)
features_importances_
总是输出特征的重要性。 值越大,特征越重要,不要考虑基尼系数或熵准则,没关系。标准用于构建模型。在训练模型后应用特征重要性,您只需“分析”并观察哪些值在您训练的模型中更相关。
此外,您会看到所有 features_importances_
总和为 1,因此重要性也被视为百分比。
由于 RandomForest 由几棵树组成,所以特征重要性在所有树上取平均值。