所以我有18个变量和大约10,000,000个观察值的数据集。该集合对于我的计算机来说是很大的处理方式,因此我需要抽取较小的数据样本进行分析。但是,我不想只是一个随机样本。我的变量“ tip_level”之一是一个具有两个级别的因子,即“高”和“低”。有没有办法对100,000个观测值进行抽样,其中50,000个变量是“高”,而50,000个是“低”?
答案 0 :(得分:2)
假设您可以加载数据,诸如此类的事情
theseones <- c(sample(which(my_df$tip_level=="high"), 50000),
sample(which(my_df$tip_level=="low"), 50000))
my_df[theseones,]