我有一个n = 7896和39个变量的数据集。 9是连续(整数),30是二进制因子。 307944总数据点中缺少79493个数据点。我正在尝试使用missForest估算丢失的数据,但是我不确定要运行多长时间。
大约30分钟过去了,它仍在第一次迭代中。我在Lenovo Thinkpad X220t上运行它。代码在下面。
> data=read.csv(file.choose())
> data$ï..Gen = as.factor(data$ï..Gen)
> binary <- c(3:8)
> data[,binary] <- lapply(data[,binary], factor)
> binarya <- c(16:39)
> data[,binarya] <- lapply(data[,binarya], factor)
> View(data)
> set.seed(1337)
> data.mis <- prodNA(data, noNA=.1)
> missForest(data.mis, maxiter= 10, ntree=2001, variablewise=TRUE,decreasing=FALSE,verbose=TRUE,mtry=floor(sqrt(ncol(data.mis))),replace=TRUE, xtrue= data.mis)
missForest iteration 1 in progress...
我应该降低ntree还是mtry?还是我的noNA太大还是太小?种子号有问题吗?我以前从未处理过数据插补,因此无法确定应花费多长时间,或者我的参数是否合理。 mtry值为默认值。