我有一个10191x2的数据帧。我的预测变量是分类的,我的回答也是绝对的。以下是此数据集的一些行:
df
Partner Customer
A Alpha
A Beta
B Beta
C Gamma
C Alpha
C Zeta
我正在尝试创建一个多项逻辑回归模型,该模型将预测客户购买特定合作伙伴的概率。所以我的方法如下:
为了给您一个想法,在这个数据集中有1385个合作伙伴和53个客户。
trainIndex <-createDataPartition(df$Customer, p=0.8,
list = FALSE,
times =1)
TRAINING <- df[trainIndex,]
TESTING <- df[-trainIndex,]
dummies <- dummyVars(Customer ~ ., data = TRAINING)
dummy<-data.frame(predict(dummies, newdata = TRAINING))
df2<-cbind(dummy,TRAINING$Customer)
df2$`TRAINING$Customer`<-as.factor(df2$`TRAINING$Customer`)
model<-train(`TRAINING$Customer` ~.,data = df2,
method = "multinom")
然后当我运行此时出现以下错误:
Error in na.fail.default(list(`TRAINING$Customer` = c(5L, 18L, 14L, : missing values in object
我检查了我的初始数据集并且没有缺失值,所以我对为什么会发生这种情况感到困惑。
是否有人能够深入了解此错误发生的原因以及如何将多项逻辑回归应用于包含所有分类变量的数据集?