为大型数据集调用rpart时发生错误

时间:2015-06-28 05:27:22

标签: r rpart

我有一个包含100k数据字段的大型数据集。当我尝试str()或查看完整数据时,没有发生任何故障,但是当我在训练集上运行rpart时需要一段时间,大约3-4分钟后它会显示以下错误,

  

错误:无法与R会话建立连接

我的脚本如下所示:

# Decision tree
library(rpart)                      
library(rattle)                                 
library(party)  

train_set <- read.table('my_sample_trainset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)
test_set <- read.table('my_sample_testset.csv', header=TRUE, sep=',', stringsAsFactors=FALSE)

my_trained_tree <- rpart(Route ~ Bus_Id + week_days + time_slot, data=train_set, method="class")
# Error occurs on/after this line

my_prediction <- predict(my_trained_tree, test_set, type = "class")

my_solution <- data.frame(Route = my_prediction)

write.csv(my_solution, file = "solution.csv", row.names = FALSE)

我错过了一个图书馆吗?或者是因为大数据集(6.5MB)而发生这种情况

此外,我在Mac OS X Yosemite上使用rStudio版本0.99.447

1 个答案:

答案 0 :(得分:1)

该消息表示R仍在计算结果。如果在CPU选项卡上打开活动监视器并按CPU使用率排序,您应该看到rsession正在使用100%的CPU。所以你可以点击&#34; ok&#34;在该消息上并允许R继续计算。

我希望有一个解决方法,这个问题在我们说话时困扰着我!