在相同数据上有10个随机森林,每个森林有50棵树,是否在相同数据上有一个随机森林,有500个树?

时间:2019-07-05 15:14:37

标签: random-forest

我有一个包含100万行的数据集。

运行1个包含500棵树的随机生存森林时,在R中使用randomForestSRC软件包时,由于内存问题,这会花费很多时间。

因此,我是否可以在相同数据上运行10个随机生存森林,其中50棵树每次都具有不同的种子,并对10个随机森林的结果取平均值(除以10),这样我就可以得到一个合理的相似值结果是有500棵树吗?

1 个答案:

答案 0 :(得分:0)

是的,结果应该相似。随机森林只是决策树的集合。以后添加更多树是没有问题的,只要您对10套50棵树中的每一个都使用相同的数据和参数即可。另外,您可以查看随机森林算法的更有效版本,例如包装护林员,也可以做生存森林,iirc。