我已经写了这个R代码来重现。在这里,我创建了一个唯一的列“ID”,我不知道如何将预测列添加回测试数据集映射到它们各自的ID。请指导我做正确的方法。
#Code
library(C50)
data(churn)
data=rbind(churnTest,churnTrain)
data$ID<-seq.int(nrow(data)) #adding unique id column
rm(churnTrain)
rm(churnTest)
set.seed(1223)
ind <- sample(2,nrow(data),replace = TRUE, prob = c(0.7,0.3))
train <- data[ind==1,1:21]
test <- data[ind==2, 1:21]
xtrain <- train[,-20]
ytrain <- train$churn
xtest <- test[,-20]
ytest<- test$churn
x <- cbind(xtrain,ytrain)
## C50 Model
c50Model <- C5.0(churn ~
state +
account_length +
area_code +
international_plan +
voice_mail_plan +
number_vmail_messages +
total_day_minutes +
total_day_calls +
total_day_charge +
total_eve_minutes +
total_eve_calls +
total_eve_charge +
total_night_minutes +
total_night_calls +
total_night_charge +
total_intl_minutes +
total_intl_calls +
total_intl_charge +
number_customer_service_calls,data=train, trials=10)
# Evaluate Model
c50Result <- predict(c50Model, xtest)
table(c50Result, ytest)
#adding prediction to test data
testnew = cbind(xtest,c50Result)
#OR predict directly
xtest$churn = predict(c50Model, xtest)
答案 0 :(得分:0)
我使用match(dataID,predictID)来匹配数据集中的ID列。
回复你的评论: 如果要将预测值添加到原始数据帧,则合并数据和预测的两种方式都是正确的,并产生相同的结果。唯一的是,我会用
xtest $ churn_hut&lt; - predict(c50Model,xtest)
而不是
xtest $ churn&lt; - predict(c50Model,xtest)
因为在这里你正在用模型预测的任何模型替换原始流失(如数据$ churn),所以你无法比较两者。