我正在尝试创建电信客户流失预测和生存分析模型。 我应该使用哪些方法? 随机森林是一个不错的选择吗?
答案 0 :(得分:0)
在选择合适的模型之前,我的答案会有点笼统。
关于你的问题,我会通过构建不同的模型来解决这个问题,然后测试和验证它们。我会不断迭代模型并尝试改进,直到找到最佳模型,这可以预测数据集之外的内容,换句话说,一般模型不会过度拟合。
如果您的目标是找到可以预测的if-then规则,那么您可以使用更易于解释的模型,例如决策树或随机森林。如果您只想在不关心模型使用的规则的情况下进行预测,您可以使用更复杂的模型,例如神经网络,这些模型也可以解释但更难。
这完全取决于您的数据和目标。 在我的大学,我们被要求建立数据挖掘模型,以使用大型数据集预测客户流失。第一步是Data Profiling,它为数据集中的每个属性创建一个配置文件。数据简介包括:
然后我们使用我们认为可以改进的不同参数和字段组合来建立模型,以便找到最佳模型。 项目目标是提取最佳预测流失的If-Then规则。因此,我们最终选择了决策树模型,该模型也具有可接受的准确度。
我希望我的回答有所帮助。