随机森林:%IncMSE和%NodePurity之间不匹配

时间:2013-05-09 15:10:33

标签: machine-learning random-forest

我在一个相当小的数据集上对10万个分类树进行了随机森林分析(即11个变量中的28个障碍物)。

然后我制作了一个变量重要性的图表

在得到的图中,%IncMSE和IncNodePurity之间存在至少一个重要变量的实质性不匹配。事实上,变量在前者中显示为第七位(即%IncMSE <0),后者则为第三位。

有人可以告诉我应该如何解释这种错配吗?

所讨论的变量与另一个变量显着相关,这两个变量在两个图中均位于第二位。这可能是一个线索吗?

1 个答案:

答案 0 :(得分:1)

第一张图表显示,如果通过随机排列为变量分配值,则MSE将增加多少。值越高,变量重要性越高。

另一方面,节点纯度是通过基尼指数来衡量的,基尼指数是该变量分割前后的RSS之间的差异。

由于变量重要性标准的概念在两种情况下是不同的,因此对不同的变量有不同的排名。

没有固定的标准来选择变量重要性的“最佳”度量,这取决于您手头的问题。