我正在尝试使用例如Logistic回归或决策树(或任何其他类似的方法)在R中构建预测模型。除了分类变量(例如,是否存在疾病),数据集还包括性别,年龄,BMI,吸烟状况等变量。
变量性对我的模型非常重要,我希望它成为预测变量的一部分。然而,在探索性分析期间,我意识到超过2/3的观察结果来自女性受访者,这不是女性人口的实际比例。
如何将此考虑在内?我的意思是,我不希望这个模型给女性带来更大的风险(例如),因为有更多的观察结果,而不是男性受访者。
非常感谢。
答案 0 :(得分:0)
这里有一个很好的讨论:https://stats.stackexchange.com/questions/6067/does-an-unbalanced-sample-matter-when-doing-logistic-regression。这是一个统计问题,而不是R问题。简短的回答是它应该不是问题。请注意底部的最终答案,它表示您可以自己平衡样本,然后记住您的模型是对后验概率的估计,假设类别同样常见。你可以在这种情况下实际做到这一点,这是一个准确的假设,因为你知道你的人口中男性和女性的真实比例。假设您有足够的数据,您可以随机删除一半的女性观察。你也可以修补一下。我经常发现学习一些东西是否有效的最佳方法是两种方式,并看看它是否有所作为。