R sample.split(大向量)永远需要

时间:2018-10-12 20:36:52

标签: r

我有一个数据表,其中包含364万个观察值(55.5 MB)和三列。我试图将这些数据分为一个训练集和一个测试集,以建立一个简单的线性回归模型。这是我的代码。

library(caTools)
set.seed(123)
split <- sample.split(datasetSubset$TOTAL_POS, SplitRatio = 0.75)
training_set <- subset(datasetSubset, split == TRUE)
test_set <- subset(datasetSubset, split == FALSE)

sample.split永远耗费时间(我尝试运行了几个小时,没有完成)。知道如何创建训练集和测试集吗?

什么最终起作用了? 我遇到了installing the caret package的困难。

@aginensky提出的解决方案奏效。

以下内容也有效(如Udemy的助教Alex所建议)

install.packages("tidyverse")
library(tidyverse)
datasetSubset$id <- 1:nrow(datasetSubset)
train <- datasetSubset %>% dplyr::sample_frac(.75)
test  <- dplyr::anti_join(datasetSubset, train, by = 'id')

0 个答案:

没有答案