随机森林中的预测因子会导致不合适吗?

时间:2016-01-27 01:49:13

标签: r random-forest

我使用纬度和经度以及Landsat数据作为我的随机森林模型中的预测变量,旨在预测景观中黑色云杉树的存在与否。纬度显示为具有高重要性,您可以在映射的预测中看到清晰纬度线的影响。此外,使用tunerF,mtry仅针对2个预测变量进行了优化,纬度就是其中之一。我的模特是不合身的吗?

1 个答案:

答案 0 :(得分:1)

选择mtry = 2,并不意味着你完全放弃了第三个参数。事实上,相反。您应该首先在RF模型的训练中包括所有合理的预测因子。降低mtry将使每个节点中测试的变量少于所有变量。这允许较少的主导变量对最终预测贡献更多。低mtry有点类似于脊(正则化)回归。正规化增加了偏差但降低了方差。有时粗糙和强大只是更好,有时则不是。您可以通过交叉验证来了解。

听起来你有~500个样本(很多),只有3-6个变量(很少)。我会开始懒惰,只需手动将mtry更改为所有3-6值,并查看返回的报告的OOB-CV值。