我知道如何使用dplyr中的sample_n或sample_frac从数据框中随机抽取每个组,这可能是这样的,
dataset %>%
group_by(user_id) %>%
sample_n(10)
但是,我的问题略有不同。我想从整个数据集中随机抽取样本。它应该像这个一样简单,
sample_n(dataset,10)
但是,因为我在之前的案例中对数据集使用了group_by命令,所以group_by似乎仍然在这里生效。第二个命令相当于第一个命令。
我想知道如何删除group_by的效果并从整个数据集中获取随机样本?
答案 0 :(得分:2)
我们可以使用ungroup()
删除任何组变量,然后应用sample_n
dataset %>%
group_by(user_id) %>%
ungroup() %>%
sample_n(10)