如何在多重插补中同时使用类别和连续预测变量[r]

时间:2019-07-08 13:00:04

标签: r random-forest categorical-data imputation

我有一个庞大的数据集,其中包含几个分类(标称)变量和多个连续变量。大多数连续变量的数据缺失。

我一直在使用mouses包(pmm和rf)来插补丢失的数据,但是,我意识到该方法忽略了分类数据。分类数据可能对预测有用。

因此,我正在R中寻找一个多重插补代码(理想情况下是随机森林,因为缺少数据的份额很大),它允许考虑连续和类别预测变量来插补多个连续变量。

1 个答案:

答案 0 :(得分:0)

事实证明,我需要将分类变量转换为向量