Question

假设我有一个80列和1个目标列的数据框，例如，一个银行帐户表，每个记录（帐户）具有80个属性，并具有1个目标列，该列决定客户是留下还是离开。我应该遵循什么步骤和算法来选择对目标列影响更大的最有效列？

Answer 1

您可以采取许多步骤，下面举一些例子来帮助您入门：

相关系数，例如Pearson的Rho（用于参数数据）或Spearman的R（用于纵坐标数据）。
功能重要性。我喜欢XGBoost，因为它包含方便的xgb.ggplot.importance / xgb.plot_importance方法。
众多功能选择选项之一，例如python的sklearn.feature_selection methods。

Answer 2

这种使用Rstudio中Pearson相关系数的方法，在浏览red_wine数据集时，我曾经使用它一次，我的目标变量或列是质量，我想知道其余列对其的影响。看到下图显示了代码的输出，因为您可以看到蓝色代表正向关系，红色代表负向关系，值越接近1或-1，颜色越深

c <- cor(
      red_wine %>%
        # first we remove unwanted columns
        dplyr::select(-X) %>%
        dplyr::select(-rating) %>%
        mutate(
          # now we translate quality to a number
          quality = as.numeric(quality)
        )
    )

    corrplot(c, method = "color", type = "lower", addCoef.col = "gray", title = "Red Wine Variables Correlations", mar=c(0,0,1,0), tl.cex = 0.7, tl.col = "black", number.cex = 0.9)

数据选择-查找数据框属性之间的关系

2 个答案: