树木森林的特色重要性

时间:2018-08-01 13:37:30

标签: python data-science decision-tree feature-selection

我试图找出我的功能的重要性,并想了解树木的森林是如何工作的? 据我所知,它使决策树和条形图显示了该功能解释了多少方差,进而显示了该功能的重要性。 我还想弄明白图表末尾的线条是什么意思?

链接到方法: http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples-ensemble-plot-forest-importances-py

这是正确的理解吗?

Bar graph showing feature importance

谢谢

1 个答案:

答案 0 :(得分:0)

随机森林由许多决策树组成。决策树中的每个节点都是单个功能的条件,旨在将数据集分为两个,以便相似的响应值最终位于同一集合中。选择(局部)最佳条件所基于的措施称为杂质。对于分类,通常是基尼杂质或信息增益/熵,而对于回归树则是方差。因此,当训练一棵树时,可以计算出每个特征将一棵树中的加权杂质减少多少。对于森林,可以将每个特征的杂质减少量平均化,并根据此度量对特征进行排序。

不过,请务必注意,Random Forests中的feature_importances_不一定能预测每个特征的正确等级。排名表的相对侧可能有两个高度相关的要素。如果您删除了错误排序的功能,这不会影响模型的性能,但是知道每个功能的重要性并不是可靠的方法。为了解决此限制,我使用了顺序向后选择。