为什么我在QDA中排名不足

时间:2016-11-05 08:38:11

标签: r machine-learning data-analysis

我正在研究来自Kaggle(https://www.kaggle.com/c/titanic/data)的泰坦尼克号泰坦数据集,我正在尝试将各种模型应用于该数据集。

在此之前,我已对数据集进行了以下修改:

df.train <- dplyr::select(df.train,-PassengerId,-Name,-Ticket,-Cabin)
df.train$Survived <- factor(df.train$Survived)
df.train$Pclass <- factor(df.train$Pclass)
df.train$Parch <- factor(df.train$Parch)
df.train$SibSp <- factor(df.train$SibSp)

我也设定了年龄,我们处于

的情况
  

anyNA(df.train)== F

因此,当我进行逻辑回归时,LDA一切正常(即使出乎意料地提供完全相同的结果),但是当我尝试时:

qda.model <- qda(Survived~. , data = df.train)

我明白了:

  

qda.default(x,分组,......)出错:groupe 0 n'est pas de rang plein

根据我的理解,这意味着我有一个等级缺陷。

在线的一些研究引导我到这里:https://stats.stackexchange.com/questions/35071/what-is-rank-deficiency-and-how-to-deal-with-it

但是我真的没有看到数据有什么问题,我有8个预测器和891个观测值,没有预测器似乎是其他的线性组合。

您能否解释一下这个QDA出了什么问题?

非常感谢!

0 个答案:

没有答案