随机样本,但按列中的某些值分组

时间:2016-11-30 23:07:29

标签: r random

我有一个大约20万行的数据集,如下所示:

Report ID | Month | Day | Year | Location ID | comments
1             4       1    2015       200          blah blah blah
2            11       3    2014       100          blah blah blah 
3             4       5    2015       203          blah blah blah
4             8      30    2012       204          blah blah blah
5            11       5    2013       204          blah blah blah
6            11       1    2015       100          blah blah blah  
7            11      10    2013       204          blah blah blah

我需要创建一个报告ID的随机样本,其中包含位置ID,年份和月份的均匀分布。我知道这不是一个真正的随机样本,但是位置ID在某些地方偏差很大,有些月份的报告比其他地方多。

我在R中尝试了各种采样和子设置技术,但他们似乎都希望整个数据集的样本,我一直无法找到一种方法,我可以要求样本提供说法每个位置500个报告ID。更别说能够说,在这500年内,我想要分享几年和几个月。有什么建议吗?

1 个答案:

答案 0 :(得分:0)

我能够通过dplyr到达那里并跟随Mr.Joshuagordon留下的评论。

mtcars %>% 
    group_by(cyl) %>%
    do(sample_n(.,2))

sample rows of subgroups from dataframe with dplyr