任何人都可以解释如何使用树木来评估特征(feature_importances_)的重要性吗?
http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html
答案 0 :(得分:0)
基本上,这是一个随机的森林实现。随机森林由许多决策树组成。决策树中的每个节点都是单个功能的条件,旨在将数据集分为两个,以便相似的响应值最终位于同一集合中。选择(局部)最佳条件所基于的措施称为杂质。对于分类,通常是基尼杂质或信息增益/熵,而对于回归树则是方差。因此,当训练一棵树时,可以计算出每个特征将一棵树中的加权杂质减少多少。对于森林,可以将每个特征的杂质减少量平均化,并根据此度量对特征进行排序。