标签: r machine-learning data-science feature-selection
我正在进行信用风险建模,数据具有大量功能。我正在使用boruta软件包进行功能选择。该程序包的计算成本太高,我无法在完整的训练数据集上运行它。我想要做的是获取训练数据的一部分(比如大约20-30%)并在子集数据上运行boruta包并获得重要的功能。但是,当我使用随机森林来训练数据时,我也使用了完整的数据集。我的问题是,仅在列车数据的一部分上选择特征是否正确,然后在整个训练数据上构建模型?
答案 0 :(得分:1)
由于这个问题具有逻辑性,我将给出两分钱。