我试图分析两个自变量(Say x1和x2)对因变量(y binary var)的影响。 当我使用rpart或信息增益时,结果显示x1比x2更重要。 (首先拆分x1,信息也大一些) 当我在y~x1 + x2上使用glm时,结果显示x2非常显着且x1不显着。任何人都可以帮我解释原因,我应该使用哪一个?谢谢!
答案 0 :(得分:1)
因为树和逻辑回归遵循不同的算法,所以它们完全有可能给出不同的结果。
这通常意味着
x1
和x2
是相关的x1
和x2
都不是y
的良好预测因素。如果它们是相关的,请使用PCA或类似技术来降低其相关性。否则,使用哪一个取决于您的数据。您可以使用训练测试集方法来确定哪种方法更适合并使用该模型。
请记住,树木很吵。随机森林( randomForest 包)可能是更好的模型。