R package randomForest 报告林中每个树的均值误差。但是,我需要对数据中的每个案例进行一定程度的置信度。由于 randomForest 通过对单个树的预测求平均来计算案例预测,我想也应该可以计算一个案例标准误差,从而计算置信区间。这可以使用输出randomForest对象完成(如果是这样的话:怎么做?)或者我是否需要深入研究源代码?
答案 0 :(得分:6)
无需深入了解源代码。您只需阅读文档即可。 ?predict.randomForest
声明其中一个参数称为predict.all
:
predict.all 是否应保留所有树木的预测?
因此,将其设置为TRUE
将为每个案例保留每个案例的预测,然后您可以使用它来计算每个案例的标准误差。
我最近了解了Stefan Wager,Trevor Hastie和Brad Efron撰写的this论文,该论文更严格地研究了随机森林(以及其他袋装预测变量)产生的预测的标准误差。