如何在R中获取数据集样本

时间:2018-10-24 22:40:18

标签: r

所以我有18个变量和大约10,000,000个观察值的数据集。该集合对于我的计算机来说是很大的处理方式,因此我需要抽取较小的数据样本进行分析。但是,我不想只是一个随机样本。我的变量“ tip_level”之一是一个具有两个级别的因子,即“高”和“低”。有没有办法对100,000个观测值进行抽样,其中50,000个变量是“高”,而50,000个是“低”?

1 个答案:

答案 0 :(得分:2)

假设您可以加载数据,诸如此类的事情

theseones <- c(sample(which(my_df$tip_level=="high"), 50000), 
               sample(which(my_df$tip_level=="low"), 50000))
my_df[theseones,]