电信客户流失预测和生存分析

时间:2018-06-13 09:57:59

标签: data-mining random-forest survival-analysis churn

我正在尝试创建电信客户流失预测和生存分析模型。 我应该使用哪些方法? 随机森林是一个不错的选择吗?

1 个答案:

答案 0 :(得分:0)

在选择合适的模型之前,我的答案会有点笼统。

  • 探索并了解您的数据(尝试查看哪些数据有用,哪些数据无效)
  • 清理数据
  • 统一数据格式
  • 选择使用。
  • 构建模型所需的数据

关于你的问题,我会通过构建不同的模型来解决这个问题,然后测试和验证它们。我会不断迭代模型并尝试改进,直到找到最佳模型,这可以预测数据集之外的内容,换句话说,一般模型不会过度拟合。

如果您的目标是找到可以预测的if-then规则,那么您可以使用更易于解释的模型,例如决策树或随机森林。如果您只想在不关心模型使用的规则的情况下进行预测,您可以使用更复杂的模型,例如神经网络,这些模型也可以解释但更难。

这完全取决于您的数据和目标。 在我的大学,我们被要求建立数据挖掘模型,以使用大型数据集预测客户流失。第一步是Data Profiling,它为数据集中的每个属性创建一个配置文件。数据简介包括:

  1. 数字或分类属性和类似的内容(min,max,条目集,如果是分类属性)。
  2. 字段空比率(每个属性中有多少行为空)。
  3. 每个可能的行条目的统计数据,例如均值,标准差等。
  4. 属性之间的功能依赖性
  5. 然后我们使用我们认为可以改进的不同参数和字段组合来建立模型,以便找到最佳模型。 项目目标是提取最佳预测流失的If-Then规则。因此,我们最终选择了决策树模型,该模型也具有可接受的准确度。

    我希望我的回答有所帮助。