我必须构建一个模型来预测二进制变量,例如V1。一般人群的频率为18%,即V1 = 1.此外,我可以得到大小<1的样本。仅限600行。什么样的采样程序更正确? 1.固定频率随机采样= 18%(V1 = 1)。 2.固定频率50%(V1 = 1)的随机采样。
我认为第二个程序是完全错误的,但不知道我怎么能向同事解释。你能帮我解决这个问题吗?
答案 0 :(得分:1)
这取决于你想要完成的任务。
如果您想估计V1 = 1的人口比例,那么您需要随机抽样的人口。
如果V1已知并且您想直接研究V1的效果在某些其他变量上,则可能值得以50%的频率进行采样,因此设计是平衡的。
如果你对V1以外的其他变量感兴趣而你只是直接研究V1的效果 那么你应该随机抽样(或者频率为18%) V1)防止偏见。在一个简单的例子中,如果您对另一个变量V2 = 1的比例感兴趣,并且V1和V2之间存在关系的可能性,那么用个体过度表示您的样本,使得V1 = 1将导致有偏差的估计。
我们想说你想估计患有肺病的人口比例。如果18%的人口是吸烟者,那么对50%的吸烟者和50%的非吸烟者进行抽样将导致过度 - 评估肺部疾病。使用随机样本或至少18%/ 82%的样本会更好。
但是,如果您想比较吸烟者和非吸烟者之间的肺部疾病的比例,那么您希望您的研究包括近乎相同的吸烟者和非吸烟者样本。
如果您正在做一些比这更复杂的事情 - 比如说,V1是您感兴趣的变量,并且您有一个逻辑回归模型(或类似的东西),这样您就可以调查多个变量的影响< em> on V1,那么它可能无关紧要。在这种情况下,50/50分裂可能产生更好的结果......但如果一部分人口系统地过度代表,我可能会担心未观察到的变量的影响。
不知道这是否有帮助 - 我建议咨询统计学家并描述您研究的具体情况。