machine-learning - 建模客户流失（有监督与无监督）

非常感谢您的反馈/意见。

我正在尝试预测我的业务流失率。我正在处理相对较少的流失和1年的时间跨度。今天不进行搅拌的客户明天可能会流失，这在将其视为监督学习问题时似乎构成了问题。

我尝试以以下方式（引导）解决此问题：

循环50次
对于每个循环，将数据分为训练/测试（80％/ 20％），并使用通过训练构建的逻辑规则获得测试集的搅动概率
测试观测值的平均流失概率，以确定每个观测值的总体流失概率
我还捕获了这些概率的标准偏差

在此之后，我可以隔离未搅动的客户，并为每个客户流失几率。我将误报（预计会流失，但实际上并没有流失）视为客户很可能流失。

当我尝试以类似方式运行“随机森林和加速”时，该模型预测的客户流失率非常高，并且所有非客户流失客户的客户流失率均不超过10％（误报极低）。这与我通过逻辑回归得到的结果非常不同。为什么呢？

这似乎是一种合理的方法吗？希望能得到我的任何反馈。

您的一般方法是好的-但要注意时间变量。假设您有12个月的数据。您将必须创建数据快照，并为每次运行创建新的训练/测试种群。例如，对于第一次运行，您使用基于第1个月收集的KPI。确保您仅使用第1个月的活动客户的数据。接下来，将目标变量定义为在第2个月搅动的客户。一个模型。使用此模型，但这一次-将其用于基于第2个月收集的数据，并尝试预测在第3个月将会流失的客户。现在，您可以将第1个月的数据+第2个月的目标与第2个月的数据+第3个月的目标结合起来，然后预测第4个月-依此类推。时间因素对于预测用户流失至关重要。

建模客户流失（有监督与无监督）

1 个答案: