将数据集分成R中的回归组和控制组

时间:2016-01-12 15:09:17

标签: r controls regression logistic-regression bigdata

这更可能是一个设计问题。如果我计划运行回归Y = X1 + X2 + X3 + X4 + X5,我的数据中有X1到X10以及Y.将数据集分成回归样本和对照组的最佳方法是什么,因此我可以对回归样本运行回归并使用对照组验证我的模型?我应该只创建一个包含随机数的列并将其分开吗?谢谢。

1 个答案:

答案 0 :(得分:1)

如果您有一个名为df的数据框,其中包含一堆行和上面的列,您可以按如下方式对n行(本例中为67%)进行采样,并创建样本组和控制组:

x <- sample(nrow(df), 0.67*nrow(df))
sampledf <- df[x, ]
controldf <- df[-x, ]

如果您想重新排列行号,可以分配新的顺序行号,如下所示:

row.names(sampledf) <- seq(1:nrow(sampled))
row.names(controldf) <- seq(1:nrow(controldf))