R随机森林变量重要性

时间:2009-04-10 02:18:38

标签: r statistics data-mining random-forest

我正在尝试使用随机森林包进行分类。

列出的变量重要性措施是:

  • 表示0级变量x的原始重要性分数
  • 表示第1类变量x的原始重要性分数
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

现在我知道这些“意思”是什么,因为我知道他们的定义。我想知道的是如何使用它们。

我真正想知道的是,这些价值观的含义仅在于它们的准确程度,什么是好的价值,什么是坏的价值,什么是最大值和最小值等等。

如果变量的高MeanDecreaseAccuracyMeanDecreaseGini表示重要或不重要?此外,有关原始分数的任何信息也可能有用。 我想知道有关这些数字的所有信息,这些数字与它们的应用相关。

使用“错误”,“求和”或“置换”这两个词的解释对于一个更简单的解释没那么有用,这个解释不涉及任何关于随机森林如何运作的讨论。

如果我想让某人向我解释如何使用收音机,我不希望解释涉及无线电如何将无线电波转换成声音。

3 个答案:

答案 0 :(得分:27)

  

使用“错误”,“求和”或“置换”字样的解释   对于一个不涉及任何问题的更简单的解释,它会没那么有用   关于随机森林如何运作的讨论。

     

如果我想让某人向我解释如何使用收音机,我不会   期望解释涉及无线电如何将无线电波转换为声音。

如何解释WKRP 100.5 FM中的数字“意味着什么”,而不会涉及波频率的讨厌技术细节?坦率地说,随机森林的参数和相关的性能问题即使你理解了一些技术术语也很难理解。

以下是我的答案:

  

- 类0的变量x的原始重要性分数

     

- 类1的变量x的原始重要性分数

从随机森林web page简化,原始重要性分数衡量的是比特定预测变量在成功分类数据时随机有用的程度。

  

-MeanDecreaseAccuracy

我认为这仅在R module中,我相信它可以衡量该预测变量在模型中包含多少可以减少分类错误。

  

-MeanDecreaseGini

当用于描述社会的收入分配或基于树的分类中的“节点杂质”的度量时,

Gini被定义为“不公平”。低Gini(即Gini中的较高递减)意味着特定预测变量在将数据划分为定义的类中起更大的作用。如果不讨论分类树中的数据基于预测变量的值在各个节点上分割的事实,则难以描述。我不太清楚如何将其转化为更好的表现。

答案 1 :(得分:22)

直接关注:值越高意味着变量越重要。对于你提到的所有措施都应如此。

随机森林为您提供了相当复杂的模型,因此解释重要性度量可能很棘手。如果您想轻松了解变量的作用,请不要使用RF。改为使用线性模型或(非集合)决策树。

你说:

  

使用单词的解释   '错误','求和'或'置换'   比较简单,没那么有用   解释不涉及任何   讨论随机森林如何   的工作原理。

除非你深入了解随机森林的内容,否则解释的内容将非常艰难。我假设您正在抱怨手册或Breiman手册中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

为了弄清楚变量的重要性,他们用随机垃圾(“置换”它)填充它,然后看看预测准确度下降了多少。 MeanDecreaseAccuracy和MeanDecreaseGini以这种方式工作。我不确定原始重要性得分是什么。

答案 2 :(得分:6)

随机森林的可解释性有点难度。虽然RF是一种非常强大的分类器,但它以民主方式进行预测。通过这个我的意思是你通过获取变量的随机子集和数据的随机子集来构建数百或数千棵树并构建树。然后对所有未选择的数据进行预测并保存预测。它非常强大,因为它可以很好地处理数据集的变幻无常(即它平滑于随机的高/低值,偶然的情节/样本,以不同的方式测量相同的东西等)。但是,如果你有一些高度相关的变量,两者似乎都很重要,因为它们并不总是包含在每个模型中。

使用随机森林的一种可能方法可能是帮助减少预测变量,然后切换到常规CART或尝试使用PARTY包进行基于推理的树模型。但是,您必须对数据挖掘问题保持警惕,并对参数进行推断。