建模客户流失(有监督与无监督)

时间:2020-06-03 08:22:35

标签: machine-learning logistic-regression unsupervised-learning supervised-learning

非常感谢您的反馈/意见。

我正在尝试预测我的业务流失率。我正在处理相对较少的流失和1年的时间跨度。今天不进行搅拌的客户明天可能会流失,这在将其视为监督学习问题时似乎构成了问题。

我尝试以以下方式(引导)解决此问题:

  • 循环50次

  • 对于每个循环,将数据分为训练/测试(80%/ 20%),并使用通过训练构建的逻辑规则获得测试集的搅动概率

  • 测试观测值的平均流失概率,以确定每个观测值的总体流失概率

  • 我还捕获了这些概率的标准偏差

在此之后,我可以隔离未搅动的客户,并为每个客户流失几率。我将误报(预计会流失,但实际上并没有流失)视为客户很可能流失。

当我尝试以类似方式运行“随机森林和加速”时,该模型预测的客户流失率非常高,并且所有非客户流失客户的客户流失率均不超过10%(误报极低)。这与我通过逻辑回归得到的结果非常不同。为什么呢?

这似乎是一种合理的方法吗?希望能得到我的任何反馈。

1 个答案:

答案 0 :(得分:0)

您的一般方法是好的-但要注意时间变量。假设您有12个月的数据。您将必须创建数据快照,并为每次运行创建新的训练/测试种群。 例如,对于第一次运行,您使用基于第1个月收集的KPI。确保您仅使用第1个月的活动客户的数据。接下来,将目标变量定义为在第2个月搅动的客户。一个模型。使用此模型,但这一次-将其用于基于第2个月收集的数据,并尝试预测在第3个月将会流失的客户。 现在,您可以将第1个月的数据+第2个月的目标与第2个月的数据+第3个月的目标结合起来,然后预测第4个月-依此类推。 时间因素对于预测用户流失至关重要。