Question

我有一个包含100万行和100列的数据集。 randomForest对于这么大的数据来说非常慢，所以我想在每个树上训练每个树，例如每个50000列。

如何使用randomForest功能实现此目的？我是否必须手动破解某些东西？我无法在小插图中找到任何相关说明。

Answer 1

您的意思是每棵树的样本应该不同吗？

首先，我会在调用randomforest之前考虑采样。实际上，每个树采用不同样本的事实可能会对最终结果产生影响，重要性矩阵可能会部分偏向。

你可以通过这样做来实现这一目标：

numrow <- nrow(data)
subset <- sample(numrow, 50000)
learn  <- data[subset,]
test   <- data[-subset,]
model_rf  <- randomForest(formula=[...], data=learn, importance=T)

如何在randomForest包中对行进行采样

1 个答案: