应用错误收集

sample_n命令的逻辑是什么（replace = TRUE）？

时间：2018-01-17 07:59:13

标签： r dplyr sample

我对 dplyr 包中的 sample_n 命令（对于replace = TRUE case）的逻辑感到困惑。我正在使用 sample_n ，但我无法弄清楚我的样本是如何复制的，它背后的逻辑是什么？

当我查看采样数据时，变量之间的分数或特定比率是不守恒的。

1 个答案:

答案 0 :(得分：2)

dplyr::sample_n来电sample.int，所以我们会调查一下。想象一下，你有一个包含10个乒乓球的麻袋，按顺序编号。

sample(..., replace=FALSE)意味着你伸手去拿一个乒乓球，记录下这个数字，然后把它放在一边。您可以放心，您刚刚选择的号码不能再次从包中取出。使用这种方法，您最多可以随机选择10个球（最后一个球应该确定其即将发生的值）。
sample(..., replace=TRUE)意味着你伸手去拿麻袋，拉出一个乒乓球，记下数字，然后把球放回麻袋里。你下一次进入麻袋可能会拉出同样的球是可行的。使用这种方法，你可以从袋中拉出（多个）10个以上的球，认识到当拉动10个或更少的球时你可能会重复，当你拉过10个以上时肯定会重复。