Question

我有一个n = 7896和39个变量的数据集。 9是连续（整数），30是二进制因子。 307944总数据点中缺少79493个数据点。我正在尝试使用missForest估算丢失的数据，但是我不确定要运行多长时间。

大约30分钟过去了，它仍在第一次迭代中。我在Lenovo Thinkpad X220t上运行它。代码在下面。

> data=read.csv(file.choose())
> data$ï..Gen = as.factor(data$ï..Gen)
> binary <- c(3:8)
> data[,binary] <- lapply(data[,binary], factor)
> binarya <- c(16:39)
> data[,binarya] <- lapply(data[,binarya], factor)
> View(data)
> set.seed(1337)
> data.mis <- prodNA(data, noNA=.1)
> missForest(data.mis, maxiter= 10, ntree=2001, variablewise=TRUE,decreasing=FALSE,verbose=TRUE,mtry=floor(sqrt(ncol(data.mis))),replace=TRUE, xtrue= data.mis)
  missForest iteration 1 in progress...

我应该降低ntree还是mtry？还是我的noNA太大还是太小？种子号有问题吗？我以前从未处理过数据插补，因此无法确定应花费多长时间，或者我的参数是否合理。 mtry值为默认值。

missForest应该花多长时间为我的数据集估算数据（n = 7896）

0 个答案: