为了训练随机森林,应该使用哪些列?

时间:2019-03-25 11:06:18

标签: r random-forest

背景

我是机器学习的新手。我想使用随机森林算法训练模型。我有database,其中包括总共9列,其中8个是自变量,而最后(第9个)变量“ Class”是因变量。因变量是包含3个类别的预测变量,即-S,N,R。所有自变量(除2个)包含的类别多于53。当类别超过53时,代码显示错误。我想训练模型以识别数据库行是否为可疑(S),正常(N),机械手(R)。列号4和7包含超过19k类别/级别。这些是重要的列,因为它们包含攻击条目/功能等。如何从它们中导出其他变量变得复杂。

代码

library('ROCR')
library('randomForest')
library('caret')
library('ranger')

database<-read.csv('data1.csv')
set.seed(1000)
train<-sample(1:310341,217239,replace = FALSE)
traindata<-database[train,]
testdata<-database[-train,]
# fit <- train(database$Class ~ ., data = traindata, method = "ranger")
fit<-randomForest(Class~.,data = traindata, ntree=500, importance= TRUE, proximity = TRUE, na.action = na.roughfix)

付出的努力

我尝试了上面的代码,但是由于第4和第7列,它显示“无法使用超过53列”的错误。

希望能帮助您解决此问题...

0 个答案:

没有答案