我有一个包含100万行的数据集。
运行1个包含500棵树的随机生存森林时,在R中使用randomForestSRC软件包时,由于内存问题,这会花费很多时间。
因此,我是否可以在相同数据上运行10个随机生存森林,其中50棵树每次都具有不同的种子,并对10个随机森林的结果取平均值(除以10),这样我就可以得到一个合理的相似值结果是有500棵树吗?
答案 0 :(得分:0)
是的,结果应该相似。随机森林只是决策树的集合。以后添加更多树是没有问题的,只要您对10套50棵树中的每一个都使用相同的数据和参数即可。另外,您可以查看随机森林算法的更有效版本,例如包装护林员,也可以做生存森林,iirc。