R 中随机森林的可重复性问题

时间:2021-05-10 16:27:40

标签: r random-forest

我正在处理一个代谢组学数据集,其中包含 12 个样本(6 个野生型和 6 个基因敲除)和 375 个代谢物。 我正在尝试使用随机森林作为分类算法来确定最重要的代谢物以区分一组和另一组。为此,我正在研究平均降低精度。 我的问题是,每次运行代码时,即使设置了种子,我也会得到完全不同的结果。我怀疑与大量特征相比,我的问题与小样本集有关。但另一方面,我看到一些出版物正是这样做的(具有相似数量的特征和样本),甚至没有提到可重复性问题。

这是我的代码

library(ggplot2)
library(cowplot)
library(randomForest)

set.seed(123456)

data <-read.table("Group1_RF.csv",header=TRUE,sep=",",row.names = 1)

head(data)
data$class <- as.factor(data$class) 


model2 <- randomForest(class ~ ., data=data,ntree=1000, mtry=19, proximity=TRUE,importance=TRUE)
varImpPlot(model2)

我将不胜感激。谢谢!

0 个答案:

没有答案
相关问题