应用错误收集

这取决于你想要完成的任务。

如果您想估计V1 = 1的人口比例，那么您需要随机抽样的人口。

如果V1已知并且您想直接研究V1的效果在某些其他变量上，则可能值得以50％的频率进行采样，因此设计是平衡的。

如果你对V1以外的其他变量感兴趣而你只是直接研究V1的效果那么你应该随机抽样（或者频率为18％） V1）防止偏见。在一个简单的例子中，如果您对另一个变量V2 = 1的比例感兴趣，并且V1和V2之间存在关系的可能性，那么用个体过度表示您的样本，使得V1 = 1将导致有偏差的估计。

我们想说你想估计患有肺病的人口比例。如果18％的人口是吸烟者，那么对50％的吸烟者和50％的非吸烟者进行抽样将导致过度 - 评估肺部疾病。使用随机样本或至少18％/ 82％的样本会更好。

但是，如果您想比较吸烟者和非吸烟者之间的肺部疾病的比例，那么您希望您的研究包括近乎相同的吸烟者和非吸烟者样本。

如果您正在做一些比这更复杂的事情 - 比如说，V1是您感兴趣的变量，并且您有一个逻辑回归模型（或类似的东西），这样您就可以调查多个变量的影响< em> on V1，那么它可能无关紧要。在这种情况下，50/50分裂可能产生更好的结果......但如果一部分人口系统地过度代表，我可能会担心未观察到的变量的影响。

不知道这是否有帮助 - 我建议咨询统计学家并描述您研究的具体情况。

这是正确的抽样程序吗？

1 个答案: