数据选择-查找数据框属性之间的关系

时间:2018-12-20 19:43:14

标签: data-science data-analysis

假设我有一个80列和1个目标列的数据框, 例如,一个银行帐户表,每个记录(帐户)具有80个属性,并具有1个目标列,该列决定客户是留下还是离开。 我应该遵循什么步骤和算法来选择对目标列影响更大的最有效列?

2 个答案:

答案 0 :(得分:2)

您可以采取许多步骤,下面举一些例子来帮助您入门:

  1. 相关系数,例如Pearson的Rho(用于参数数据)或Spearman的R(用于纵坐标数据)。
  2. 功能重要性。我喜欢XGBoost,因为它包含方便的xgb.ggplot.importance / xgb.plot_importance方法。
  3. 众多功能选择选项之一,例如python的sklearn.feature_selection methods

答案 1 :(得分:0)

这种使用Rstudio中Pearson相关系数的方法,在浏览red_wine数据集时,我曾经使用它一次,我的目标变量或列是质量,我想知道其余列对其的影响。 看到下图显示了代码的输出,因为您可以看到蓝色代表正向关系,红色代表负向关系,值越接近1或-1,颜色越深code output

c <- cor(
      red_wine %>%
        # first we remove unwanted columns
        dplyr::select(-X) %>%
        dplyr::select(-rating) %>%
        mutate(
          # now we translate quality to a number
          quality = as.numeric(quality)
        )
    )

    corrplot(c, method = "color", type = "lower", addCoef.col = "gray", title = "Red Wine Variables Correlations", mar=c(0,0,1,0), tl.cex = 0.7, tl.col = "black", number.cex = 0.9)