我的编程经验非常少,但我正在研究统计项目,并希望生成一个不等概率样本,其中单位的包含概率基于其大小(PPS)。
基本上,我有两个数据集:
ds1
列出美国各州和我正在尝试估算的参数ds2
拥有每个州的人口规模。我的问题:
答案 0 :(得分:0)
是的,这称为 加权抽样 。只需将权重设置为状态的大小,严格来说甚至不需要将它们标准化为1/sum(sizes)
,尽管它总是很好的做法。 SO上有大量重复的帖子,显示了如何进行加权抽样。
唯一的小问题是您需要join()
数据集ds1, ds2
。如果它导致问题,请告诉我们您尝试过的代码。建议您使用dplyr
或data.table
。
你的第二个问题应该作为一个单独的问题提出,并且在SO上是offtopic,或者至少不会得到很好的回应 - 最好在姐妹网站CrossValidated提问统计问题
答案 1 :(得分:0)
R中有一个相同的包 - https://www.youtube.com/watch?v=_NGnbON3xAo,文档为pps。
此外,还有另一个名为调查的软件包,其中包含here。
我不确定两者之间的区别,并且我自己没有使用它们。希望这是你正在寻找的。 p>