使用带有4000条记录和13个属性的rpart的R问题

时间:2010-04-21 20:46:55

标签: r rpart

我试图通过电子邮件发送此软件包的作者,但没有成功, 只是想知道是否有其他人经历过这个。

我在拥有13行属性的4000行数据上使用rpart。 我可以在相同数据的300行上运行相同的测试而没有任何问题。 当我运行4000行时,Rgui.exe始终以50%的CPU运行 UI挂起;如果我愿意的话,它至少会保持这样至少4-5小时 跑步,永不退出或变得敏感。

这是我在300和4000大小子集上使用的代码:

train <- read.csv("input.csv", header=T)
y <- train[, 18]
x <- train[, 3:17]
library(rpart)
fit <- rpart(y ~ ., x)

这是rpart的已知限制,我做错了吗? 潜在的解决方法?

2 个答案:

答案 0 :(得分:2)

当您提供类似维度的rpart随机数据而不是实际数据(来自input.csv)时,是否可以重现错误消息?如果没有,这可能是您的数据有问题(格式化可能?)。使用read.csv导入数据后,通过查看输出来检查数据是否存在格式问题 STR(火车)。

#How to do an equivalent rpart fit one some random data of equivalent dimension
dats<-data.frame(matrix(rnorm(4000*14), nrow=4000))

y<-dats[,1]
x<-dats[,-1]
library(rpart)
system.time(fit<-rpart(y~.,x))

答案 1 :(得分:1)

这里的问题是数据准备错误。

在数据集的中间重写了一个标题。