这是我的问题:
我有一个有关液压系统状况的中等大小的数据集。
数据集由68个变量加上系统状态(绿色,黄色,红色)表示
(谈论条件,颜色表示:红色警告,黄色注意,绿色良好)
我将使用的分类器为:
1)决策树 2)SVM线性 3)SVM径向 4)神经网络 5)朴素贝叶斯 6)随机森林。
因此,当我使用它们时,是否需要每次更改火车功能?
我必须使用几个分类器来预测系统的行为,因此我将数据集分为训练集和测试集,如下所示:
Tab$Condition=factor(Tab$Condition, labels=c("Yellow","Green","Red"))
set.seed(32343)
reg_Control = trainControl("repeatedcv", number = 5, repeats=5, verboseIter = T, classProbs =T)
inTrain = createDataPartition(y=Tab$Condition,p=0.75, list=FALSE)
training = Tab[inTrain,]
testing = Tab[-inTrain,]
谈到决策树,我写道:
library(rpart)
treeFit=train(Condition~ ., data=training,method="rpart",trControl = reg_Control,tuneLength=10)
tFPrediction = predict(treeFit,newdata=training)
confusionMatrix(tFPrediction, training$Condition)
#We have an accuracy of 96.63% cp = 0 ..... What does cp means in poor words??
tFPredictions = predict(treeFit,newdata=testing)
confusionMatrix(tFPredictions, testing$Condition)
#misclassification of 16 / 550 accuracy of 97.09 %
每次更改分类器时都需要更改火车功能吗?
还是我应该留下写在这里的“ repetedcv”来做这项工作:
reg_Control = trainControl("repeatedcv", number = 5, repeats=5, verboseIter = T, classProbs =T)
抱歉,这个问题很平庸,但我是初学者!
答案会有所帮助!
谢谢