我有一个数据表,其中包含364万个观察值(55.5 MB)和三列。我试图将这些数据分为一个训练集和一个测试集,以建立一个简单的线性回归模型。这是我的代码。
library(caTools)
set.seed(123)
split <- sample.split(datasetSubset$TOTAL_POS, SplitRatio = 0.75)
training_set <- subset(datasetSubset, split == TRUE)
test_set <- subset(datasetSubset, split == FALSE)
sample.split永远耗费时间(我尝试运行了几个小时,没有完成)。知道如何创建训练集和测试集吗?
什么最终起作用了? 我遇到了installing the caret package的困难。
@aginensky提出的解决方案奏效。
以下内容也有效(如Udemy的助教Alex所建议)
install.packages("tidyverse")
library(tidyverse)
datasetSubset$id <- 1:nrow(datasetSubset)
train <- datasetSubset %>% dplyr::sample_frac(.75)
test <- dplyr::anti_join(datasetSubset, train, by = 'id')