使用随机森林进行变量选择的合适方法

时间:2018-05-07 15:03:15

标签: random-forest

我正在使用随机森林运行回归模型,我想选择一组仍然可以实现良好模型性能的简约预测器。为此,我运行了一个包含两个步骤的模型选择例程: 我首先运行一个完整的模型,并根据重要性对变量进行排名,(我将重要性衡量为精度的降低)。其次,我从完整模型中获取最重要的预测变量,并逐步添加所有剩余的预测变量,一次一个。通过这样做,我看到哪个预测器最好根据方差解释的改进来改进建模结果,从而构建一个新的简约模型。我迭代地重复这个例程,直到可以实现超过2%的方差改善。我已经读过大量的可变RF选择方法是基于OOB误差的减少而不是通过检查方差改进,因此我不确定我是否选择了合适的方法。有人会发表意见吗?谢谢

0 个答案:

没有答案