使用MICE估算不同类型的变量

时间:2019-04-22 14:49:42

标签: r missing-data imputation r-mice

我试图对具有69列和超过50000行的数据集执行插补。我的数据集具有不同类型的变量:

  1. 仅显示二进制变量(0,1)的列
  2. 分类列
  3. 采用连续数值数据的列

现在,我想执行插补,并且我知道我的列具有很高的多重共线性。

我是否必须将数据集拆分为3个不同的子集(每个可以包含一个列),2),3),还是应该对整个数据集进行插补?

问题在于,对于每种类型的包装鼠标,它们具有不同的方法。而且,如果我运行三个不同的时间,是否必须考虑整个数据集还是仅考虑特定部分?

1 个答案:

答案 0 :(得分:0)

您可以一次将整个数据集输入到鼠标。 (您实际上可以分别为每个变量指定使用哪种方法)

我引用了小鼠参考文献:

参数“方法”

  

可以是单个字符串,也可以是长度为length(块)的字符串向量,指定要用于数据中每一列的插补方法。如果指定为单个字符串,则所有块将使用相同的方法。默认插补方法(未指定任何参数时)取决于目标列的度量级别,这由defaultMethod自变量调节。不需要插入的列具有空方法“”。查看详细信息。