我对 dplyr 包中的 sample_n 命令(对于replace = TRUE case)的逻辑感到困惑。我正在使用 sample_n ,但我无法弄清楚我的样本是如何复制的,它背后的逻辑是什么?
当我查看采样数据时,变量之间的分数或特定比率是不守恒的。
答案 0 :(得分:2)
dplyr::sample_n
来电sample.int
,所以我们会调查一下。想象一下,你有一个包含10个乒乓球的麻袋,按顺序编号。
sample(..., replace=FALSE)
意味着你伸手去拿一个乒乓球,记录下这个数字,然后把它放在一边。您可以放心,您刚刚选择的号码不能再次从包中取出。使用这种方法,您最多可以随机选择10个球(最后一个球应该确定其即将发生的值)。
sample(..., replace=TRUE)
意味着你伸手去拿麻袋,拉出一个乒乓球,记下数字,然后把球放回麻袋里。你下一次进入麻袋可能会拉出同样的球是可行的。使用这种方法,你可以从袋中拉出(多个)10个以上的球,认识到当拉动10个或更少的球时你可能会重复,当你拉过10个以上时肯定会重复。