随机森林回归输出计算

时间:2018-11-17 02:55:20

标签: r random-forest

嗨,这是一个纯粹的理论性问题,我无法理解(可能是完全错误的)

使用随机森林回归-您可以生长n棵树,每棵树使用数据的子集,在某些情况下还使用可用变量的子集来预测因变量。取这n棵树的平均值作为预测值。但是,是否有必要查看各个树级别的预测分布?我们能否获得一个可以确定整体预测值的数字?我会假设在单个树级别上生成一个更一致的数字会比各种各样的数字更可取?

预先感谢

1 个答案:

答案 0 :(得分:0)

这种确定变量重要性的方法有一些缺点。对于包含具有不同级别数的类别变量的数据,随机森林偏向于那些具有更高级别的属性。可以使用部分置换和生长无偏树之类的方法来解决该问题。如果数据中包含与输出具有相似相关性的相关特征组,则较小的组将比较大的组更受青睐。