如何使用R?

时间:2017-12-03 02:39:34

标签: r probability statistical-sampling

我的编程经验非常少,但我正在研究统计项目,并希望生成一个不等概率样本,其中单位的包含概率基于其大小(PPS)。

基本上,我有两个数据集:

  • ds1列出美国各州和我正在尝试估算的参数
  • ds2拥有每个州的人口规模。

我的问题:

  1. 我想使用R根据每个州(第二个数据集)的总体使用包含概率从第一个数据集中选择随机样本。

  2. 还有什么办法可以用R来计算这些广义不等概率估计公式?

  3. Generalized Unequal Probability Estimator Estimated Variance of Generalized Unequal Probability Estimator

    也只是关于公式的注释:pi_i是包含概率,pi_ij是联合包含概率。

2 个答案:

答案 0 :(得分:0)

是的,这称为 加权抽样 。只需将权重设置为状态的大小,严格来说甚至不需要将它们标准化为1/sum(sizes),尽管它总是很好的做法。 SO上有大量重复的帖子,显示了如何进行加权抽样。

唯一的小问题是您需要join()数据集ds1, ds2。如果它导致问题,请告诉我们您尝试过的代码。建议您使用dplyrdata.table

你的第二个问题应该作为一个单独的问题提出,并且在SO上是offtopic,或者至少不会得到很好的回应 - 最好在姐妹网站CrossValidated提问统计问题

答案 1 :(得分:0)

R中有一个相同的包 - https://www.youtube.com/watch?v=_NGnbON3xAo,文档为pps

此外,还有另一个名为调查的软件包,其中包含here

我不确定两者之间的区别,并且我自己没有使用它们。希望这是你正在寻找的。