Question

我有一个数据表，其中包含364万个观察值（55.5 MB）和三列。我试图将这些数据分为一个训练集和一个测试集，以建立一个简单的线性回归模型。这是我的代码。

library(caTools)
set.seed(123)
split <- sample.split(datasetSubset$TOTAL_POS, SplitRatio = 0.75)
training_set <- subset(datasetSubset, split == TRUE)
test_set <- subset(datasetSubset, split == FALSE)

sample.split永远耗费时间（我尝试运行了几个小时，没有完成）。知道如何创建训练集和测试集吗？

什么最终起作用了？ 我遇到了installing the caret package的困难。

@aginensky提出的解决方案奏效。

以下内容也有效（如Udemy的助教Alex所建议）

install.packages("tidyverse")
library(tidyverse)
datasetSubset$id <- 1:nrow(datasetSubset)
train <- datasetSubset %>% dplyr::sample_frac(.75)
test  <- dplyr::anti_join(datasetSubset, train, by = 'id')

R sample.split（大向量）永远需要

0 个答案: