我的数据集是数字和分类值的混合,结果是类标签,大约有400列,数据集包含缺失值。我脑子里有很多问题。首先是:
如何处理缺失值?我用-1替换了所有缺失的值,是否可以?
如何对此数据应用MCA因子分析?我应该将火车和测试结合起来然后申请MCA吗?
如何解释MCA分析的输出以获得最相关的功能?
答案 0 :(得分:0)
请勿触摸您的数据集 如果您使用FactoMineR包,它会自行处理缺少的值。
你必须尝试这种代码
library(FactoMineR)
library(factoextra)
df <- data.frame(df) # Dataset with only categorical variables
res.mca <- MCA(df, quali.sup)
# Visualize Principal Components
fviz_eig(res.mca,
addlabels = TRUE)
# Individual plot
fviz_mca_ind(res.mca,
col.ind = "cos2",
axes = c(1,2), # axes by default
repel = TRUE)
# Variable plot on axe 1
fviz_contrib(res.mca,
choice = "var",
axes = 1, # you can switch with the other axes
top = 10)
# Best variable contribution
fviz_mca_var(res.mca, col.var = "contrib",
axes = c(1,2),
repel = TRUE)
口译看起来像PCA。