我试图通过电子邮件发送此软件包的作者,但没有成功, 只是想知道是否有其他人经历过这个。
我在拥有13行属性的4000行数据上使用rpart
。
我可以在相同数据的300行上运行相同的测试而没有任何问题。
当我运行4000行时,Rgui.exe始终以50%的CPU运行
UI挂起;如果我愿意的话,它至少会保持这样至少4-5小时
跑步,永不退出或变得敏感。
这是我在300和4000大小子集上使用的代码:
train <- read.csv("input.csv", header=T)
y <- train[, 18]
x <- train[, 3:17]
library(rpart)
fit <- rpart(y ~ ., x)
这是rpart
的已知限制,我做错了吗?
潜在的解决方法?
答案 0 :(得分:2)
当您提供类似维度的rpart随机数据而不是实际数据(来自input.csv)时,是否可以重现错误消息?如果没有,这可能是您的数据有问题(格式化可能?)。使用read.csv导入数据后,通过查看输出来检查数据是否存在格式问题 STR(火车)。
#How to do an equivalent rpart fit one some random data of equivalent dimension
dats<-data.frame(matrix(rnorm(4000*14), nrow=4000))
y<-dats[,1]
x<-dats[,-1]
library(rpart)
system.time(fit<-rpart(y~.,x))
答案 1 :(得分:1)
这里的问题是数据准备错误。
在数据集的中间重写了一个标题。