我目前正在研究预测客户流失的问题。我的目标是我希望预测可能会流失的客户以及何时流失的客户,并且正如我从论文中所研究的那样,我发现可以用于解决此类问题的统计方法是使用生存分析。我的数据集包含以下内容;
- Class =>流失VS非流失
- Tenure =>直到客户流失为止的时间(例如客户首次进入后的12个月)。
- 人口统计变量=>客户的人口统计信息,例如年龄,性别等。
- 行为变量=>客户行为,例如付款行为等。
问题是我的数据集包含1百万条记录和大约1,000个变量(人口统计和行为统计)。所以,我想从你们这里获得建议;
- 我们如何知道重要的变量?在信用评分中,我们可以执行信息值(或IV)来解决对自变量(y)至关重要的因素,但这包括1,000个变量。因此对所有1,000个变量进行IV可能没有意义。还有其他方法(例如决策树或随机森林)吗?以及如何在SAS Eminer中完成?
- 我们应该进行降维(PCA或EFA)等因素分析吗?
- 一旦变量减少,我就可以进行生存分析吗?
谢谢大家的帮助。