特征选择(Boruta)

时间:2017-05-03 10:21:00

标签: r machine-learning data-science feature-selection

我正在进行信用风险建模,数据具有大量功能。我正在使用boruta软件包进行功能选择。该程序包的计算成本太高,我无法在完整的训练数据集上运行它。我想要做的是获取训练数据的一部分(比如大约20-30%)并在子集数据上运行boruta包并获得重要的功能。但是,当我使用随机森林来训练数据时,我也使用了完整的数据集。我的问题是,仅在列车数据的一部分上选择特征是否正确,然后在整个训练数据上构建模型?

1 个答案:

答案 0 :(得分:1)

由于这个问题具有逻辑性,我将给出两分钱。

  1. 20%人口的单一随机样本我相信
  2. 进一步采取3-4个这样的随机集合,所有这些随机集合的重要变量的交集是对上述的改进
  3. 使用多种方法中的特征选择(xgboost,一些插入符号特征选择方法) - >为每个样本使用不同的随机样本,然后采用常见的重要特征