Eminer中的特征缩减方法?

时间:2019-08-05 17:03:55

标签: sas survival-analysis enterprise-guide churn enterprise-miner

我目前正在研究预测客户流失的问题。我的目标是我希望预测可能会流失的客户以及何时流失的客户,并且正如我从论文中所研究的那样,我发现可以用于解决此类问题的统计方法是使用生存分析。我的数据集包含以下内容;

  1. Class =>流失VS非流失
  2. Tenure =>直到客户流失为止的时间(例如客户首次进入后的12个月)。
  3. 人口统计变量=>客户的人口统计信息,例如年龄,性别等。
  4. 行为变量=>客户行为,例如付款行为等。

问题是我的数据集包含1百万条记录和大约1,000个变量(人口统计和行为统计)。所以,我想从你们这里获得建议;

  1. 我们如何知道重要的变量?在信用评分中,我们可以执行信息值(或IV)来解决对自变量(y)至关重要的因素,但这包括1,000个变量。因此对所有1,000个变量进行IV可能没有意义。还有其他方法(例如决策树或随机森林)吗?以及如何在SAS Eminer中完成?
  2. 我们应该进行降维(PCA或EFA)等因素分析吗?
  3. 一旦变量减少,我就可以进行生存分析吗?

谢谢大家的帮助。

0 个答案:

没有答案