R- FactoMiner MCA如何选择重要功能?

时间:2017-10-26 15:43:35

标签: r pca

我的数据集是数字和分类值的混合,结果是类标签,大约有400列,数据集包含缺失值。我脑子里有很多问题。首先是:

  1. 如何处理缺失值?我用-1替换了所有缺失的值,是否可以?

  2. 如何对此数据应用MCA因子分析?我应该将火车和测试结合起来然后申请MCA吗?

  3. 如何解释MCA分析的输出以获得最相关的功能?

1 个答案:

答案 0 :(得分:0)

  1. 请勿触摸您的数据集 如果您使用FactoMineR包,它会自行处理缺少的值。

  2. 你必须尝试这种代码

    library(FactoMineR)
    library(factoextra)
    
    df <- data.frame(df) # Dataset with only categorical variables
    res.mca <- MCA(df, quali.sup)
    
    # Visualize Principal Components
    fviz_eig(res.mca, 
             addlabels = TRUE)
    
    # Individual plot
    fviz_mca_ind(res.mca, 
                 col.ind = "cos2",
                 axes = c(1,2), # axes by default
                 repel = TRUE)
    
     # Variable plot on axe 1
     fviz_contrib(res.mca, 
                  choice = "var", 
                  axes = 1, # you can switch with the other axes
                  top = 10)
    
     # Best variable contribution
     fviz_mca_var(res.mca, col.var = "contrib",
                  axes = c(1,2),
                 repel = TRUE)
    
  3. 口译看起来像PCA。

    • 可视化主成分(CP):查看每个变量的%信息
    • 个人&amp;变量图:显示相关变量和异常值
    • 贡献:参见每个轴上的%变量贡献