Question

我有一个大约20万行的数据集，如下所示：

Report ID | Month | Day | Year | Location ID | comments
1             4       1    2015       200          blah blah blah
2            11       3    2014       100          blah blah blah 
3             4       5    2015       203          blah blah blah
4             8      30    2012       204          blah blah blah
5            11       5    2013       204          blah blah blah
6            11       1    2015       100          blah blah blah  
7            11      10    2013       204          blah blah blah

我需要创建一个报告ID的随机样本，其中包含位置ID，年份和月份的均匀分布。我知道这不是一个真正的随机样本，但是位置ID在某些地方偏差很大，有些月份的报告比其他地方多。

我在R中尝试了各种采样和子设置技术，但他们似乎都希望整个数据集的样本，我一直无法找到一种方法，我可以要求样本提供说法每个位置500个报告ID。更别说能够说，在这500年内，我想要分享几年和几个月。有什么建议吗？

Answer 1

我能够通过dplyr到达那里并跟随Mr.Joshuagordon留下的评论。

mtcars %>% 
    group_by(cyl) %>%
    do(sample_n(.,2))

sample rows of subgroups from dataframe with dplyr

随机样本，但按列中的某些值分组

1 个答案: