我正在构建决策树分类模型。我的所有特征变量和标签变量都是因子类型。当我将数据集拆分为训练集和测试集时,这两个子集将包含未使用的级别。如果我在两个子集上放下水平,预测结果将会非常不同,准确性将会降低。
我想知道在预测建模的情况下以及其他情况下处理这个级别问题的正确方法是什么。有什么建议吗?
以下是使用rpart
包中的样本数据 solder 的可重现示例。我选择 Solder 作为我的标签变量。这是一个平衡的数据集。
solder_data<-solder
##split training data set and test data set
set.seed(11)
g <- runif(nrow(solder_data))#set random order of data set
solder_data<- solder_data[order(g),]
ss <- sample(1:nrow(solder_data),size = 0.7*nrow(solder_data))
solder.Train <- solder_data[ss,]
solder.Test <- subset(solder_data[-ss,],Opening=='S')
dl_solder.Test <-droplevels(solder.Test) # drop unused levels in testing set
str(solder.Test) #opening has 3 levels
str(droplevels(solder.Test)) # opening has 1 level
#build model
library(RevoScaleR)
rxfit <- rxDTree(Solder ~ Opening + skips + Mask + PadType + Panel,
data = solder.Train)
#test model on test set before dropping levels
rxpred <- rxPredict(rxfit,data = solder.Test,extraVarsToWrite = "Solder")
rxpred$Predicted <- ifelse(rxpred$Thick_prob<=rxpred$Thin_prob,
"Thin","Thick")
mean(rxpred$Predicted!=rxpred$Solder) # misclassification rate is 0.1428571
#test model on test set after dropping levels
rxpred_dl <- rxPredict(rxfit,data = dl_solder.Test,
extraVarsToWrite = "Solder")
rxpred_dl$Predicted <- ifelse(rxpred_dl$Thick_prob<=rxpred_dl$Thin_prob,
"Thin","Thick")
mean(rxpred_dl$Predicted!=rxpred_dl$Solder)
# misclassification rate is 0.3714286
为什么在测试数据集中删除未使用的级别后会导致不同的预测结果?哪一个是做预测的正确方法?