应用错误收集

特征选择（Boruta）

时间：2017-05-03 10:21:00

标签： r machine-learning data-science feature-selection

我正在进行信用风险建模，数据具有大量功能。我正在使用boruta软件包进行功能选择。该程序包的计算成本太高，我无法在完整的训练数据集上运行它。我想要做的是获取训练数据的一部分（比如大约20-30％）并在子集数据上运行boruta包并获得重要的功能。但是，当我使用随机森林来训练数据时，我也使用了完整的数据集。我的问题是，仅在列车数据的一部分上选择特征是否正确，然后在整个训练数据上构建模型？

1 个答案:

答案 0 :(得分：1)

由于这个问题具有逻辑性，我将给出两分钱。

20％人口的单一随机样本我相信
进一步采取3-4个这样的随机集合，所有这些随机集合的重要变量的交集是对上述的改进
使用多种方法中的特征选择（xgboost，一些插入符号特征选择方法） - ＆gt;为每个样本使用不同的随机样本，然后采用常见的重要特征