我有一个大约20万行的数据集,如下所示:
Report ID | Month | Day | Year | Location ID | comments
1 4 1 2015 200 blah blah blah
2 11 3 2014 100 blah blah blah
3 4 5 2015 203 blah blah blah
4 8 30 2012 204 blah blah blah
5 11 5 2013 204 blah blah blah
6 11 1 2015 100 blah blah blah
7 11 10 2013 204 blah blah blah
我需要创建一个报告ID的随机样本,其中包含位置ID,年份和月份的均匀分布。我知道这不是一个真正的随机样本,但是位置ID在某些地方偏差很大,有些月份的报告比其他地方多。
我在R中尝试了各种采样和子设置技术,但他们似乎都希望整个数据集的样本,我一直无法找到一种方法,我可以要求样本提供说法每个位置500个报告ID。更别说能够说,在这500年内,我想要分享几年和几个月。有什么建议吗?
答案 0 :(得分:0)
我能够通过dplyr到达那里并跟随Mr.Joshuagordon留下的评论。
mtcars %>%
group_by(cyl) %>%
do(sample_n(.,2))