树和后勤给出不同的结果

时间:2014-03-04 15:54:01

标签: r tree glm

我试图分析两个自变量(Say x1和x2)对因变量(y binary var)的影响。 当我使用rpart或信息增益时,结果显示x1比x2更重要。 (首先拆分x1,信息也大一些) 当我在y~x1 + x2上使用glm时,结果显示x2非常显着且x1不显着。任何人都可以帮我解释原因,我应该使用哪一个?谢谢!

1 个答案:

答案 0 :(得分:1)

因为树和逻辑回归遵循不同的算法,所以它们完全有可能给出不同的结果。

这通常意味着

  1. x1x2是相关的
  2. x1x2都不是y的良好预测因素。
  3. 如果它们是相关的,请使用PCA或类似技术来降低其相关性。否则,使用哪一个取决于您的数据。您可以使用训练测试集方法来确定哪种方法更适合并使用该模型。

    请记住,树木很吵。随机森林( randomForest 包)可能是更好的模型。