我正在尝试使用插入符号preProcess函数,方法= c(“scale”,“center”,“YeoJohnson”)对R中的1GB(1.7M行x 77列)data.frame进行预处理。它创建的模型大小为22GB!这假设发生了吗?如果有,是否有办法减少模型的大小?
require(caret)
set.seed(123)
m <- 10000 # I have about 500,000
n <- 80
df <- as.data.frame(matrix(rnorm(m*n), nrow=m, ncol=n))
naCutoffs <- rnorm(n)-0.8
for (i in 1:(n*0.75))
df[df[,i]<naCutoffs, i] <- NA
print(mean(is.na(df)))
pp <- preProcess(df, method=c("YeoJohnson", "center", "scale", "bagImpute"))
print(object.size(pp), units="Gb")