随机森林与逻辑回归

时间:2019-04-14 01:08:13

标签: r

我正在处理数据集。这是一个分类问题。数据集的一列中有300,000个观测值中约有11000个缺失值(这是一个分类变量,因此不可能像数字值那样进行缺失值插补)。

由于随机森林不受丢失值的影响,建议采用随机森林而不是逻辑回归吗?

在使用RF时,我还需要照顾自变量之间的多重共线性吗?还是没有必要?

1 个答案:

答案 0 :(得分:1)

  1. 尽管RFM可以处理噪声数据和遗漏值,但似乎很难说它比逻辑更好。因为物流还可以通过其他预处理(PCA或缺少数据插补)或整体方法来改善。

  2. 我认为RF不必考虑多重共线性。这是因为变量是随机选择的,以创建不同的树并产生结果。在这个过程中,最重要的属性被选择并解释为解决具有相似趋势的多重共线性问题。