我正在处理数据集。这是一个分类问题。数据集的一列中有300,000个观测值中约有11000个缺失值(这是一个分类变量,因此不可能像数字值那样进行缺失值插补)。
由于随机森林不受丢失值的影响,建议采用随机森林而不是逻辑回归吗?
在使用RF时,我还需要照顾自变量之间的多重共线性吗?还是没有必要?
答案 0 :(得分:1)
尽管RFM可以处理噪声数据和遗漏值,但似乎很难说它比逻辑更好。因为物流还可以通过其他预处理(PCA或缺少数据插补)或整体方法来改善。
我认为RF不必考虑多重共线性。这是因为变量是随机选择的,以创建不同的树并产生结果。在这个过程中,最重要的属性被选择并解释为解决具有相似趋势的多重共线性问题。