如何在randomForest包中对行进行采样

时间:2014-01-03 10:31:39

标签: r time-complexity random-forest

我有一个包含100万行和100列的数据集。 randomForest对于这么大的数据来说非常慢,所以我想在每个树上训练每个树,例如每个50000列。

如何使用randomForest功能实现此目的?我是否必须手动破解某些东西?我无法在小插图中找到任何相关说明。

1 个答案:

答案 0 :(得分:0)

您的意思是每棵树的样本应该不同吗?

首先,我会在调用randomforest之前考虑采样。实际上,每个树采用不同样本的事实可能会对最终结果产生影响,重要性矩阵可能会部分偏向。

你可以通过这样做来实现这一目标:

numrow <- nrow(data)
subset <- sample(numrow, 50000)
learn  <- data[subset,]
test   <- data[-subset,]
model_rf  <- randomForest(formula=[...], data=learn, importance=T)