我有一个包含100万行和100列的数据集。 randomForest
对于这么大的数据来说非常慢,所以我想在每个树上训练每个树,例如每个50000列。
如何使用randomForest
功能实现此目的?我是否必须手动破解某些东西?我无法在小插图中找到任何相关说明。
答案 0 :(得分:0)
您的意思是每棵树的样本应该不同吗?
首先,我会在调用randomforest之前考虑采样。实际上,每个树采用不同样本的事实可能会对最终结果产生影响,重要性矩阵可能会部分偏向。
你可以通过这样做来实现这一目标:
numrow <- nrow(data)
subset <- sample(numrow, 50000)
learn <- data[subset,]
test <- data[-subset,]
model_rf <- randomForest(formula=[...], data=learn, importance=T)