客户流失模型-不平衡数据集的上采样/下采样

时间:2019-10-29 15:55:14

标签: classification logistic-regression

我正在尝试构建损耗模型。在我的用例中,每月客户流失率约为1-2%。这意味着在训练数据集中,事件发生率非常低,数据集高度不平衡。因此,为了针对此问题构建二进制分类模型,是否需要在数据准备阶段对多数类进行下采样/对少数类进行上采样,以使数据集变得平衡?

此外,我已经看到电子邮件广告系列的典型响应率通常在2-3%左右,如果我们尝试建立加售/交叉销售模型来预测对报价做出回应的可能性,我们将面临类似的问题数据集不平衡方面的问题。

在这些情况下应该怎么做?我们是否需要下采样/上采样以使其成为平衡的数据集,然后构建模型,或者我们可以按原样使用数据来构建模型。请分享您的想法并提供理由。

Sumeet

0 个答案:

没有答案