假设我有一个80列和1个目标列的数据框, 例如,一个银行帐户表,每个记录(帐户)具有80个属性,并具有1个目标列,该列决定客户是留下还是离开。 我应该遵循什么步骤和算法来选择对目标列影响更大的最有效列?
答案 0 :(得分:2)
您可以采取许多步骤,下面举一些例子来帮助您入门:
答案 1 :(得分:0)
这种使用Rstudio中Pearson相关系数的方法,在浏览red_wine数据集时,我曾经使用它一次,我的目标变量或列是质量,我想知道其余列对其的影响。
看到下图显示了代码的输出,因为您可以看到蓝色代表正向关系,红色代表负向关系,值越接近1或-1,颜色越深
c <- cor(
red_wine %>%
# first we remove unwanted columns
dplyr::select(-X) %>%
dplyr::select(-rating) %>%
mutate(
# now we translate quality to a number
quality = as.numeric(quality)
)
)
corrplot(c, method = "color", type = "lower", addCoef.col = "gray", title = "Red Wine Variables Correlations", mar=c(0,0,1,0), tl.cex = 0.7, tl.col = "black", number.cex = 0.9)