我试图对具有69列和超过50000行的数据集执行插补。我的数据集具有不同类型的变量:
现在,我想执行插补,并且我知道我的列具有很高的多重共线性。
我是否必须将数据集拆分为3个不同的子集(每个可以包含一个列),2),3),还是应该对整个数据集进行插补?
问题在于,对于每种类型的包装鼠标,它们具有不同的方法。而且,如果我运行三个不同的时间,是否必须考虑整个数据集还是仅考虑特定部分?
答案 0 :(得分:0)
您可以一次将整个数据集输入到鼠标。 (您实际上可以分别为每个变量指定使用哪种方法)
我引用了小鼠参考文献:
参数“方法”
可以是单个字符串,也可以是长度为length(块)的字符串向量,指定要用于数据中每一列的插补方法。如果指定为单个字符串,则所有块将使用相同的方法。默认插补方法(未指定任何参数时)取决于目标列的度量级别,这由defaultMethod自变量调节。不需要插入的列具有空方法“”。查看详细信息。