我有一个包含53个独立变量(X)和1个因变量(Y)的数据集。
因变量是布尔值(1或0),而独立集由连续变量和离散变量组成。
我打算使用pandas.DataFrame.corr()列出对输出Y影响最大的变量。
corr可以是:
在3种方法中我得到不同的结果。
对于给定数据集的形状(离散+连续),您有何建议最合适?
答案 0 :(得分:0)
相关仅用于数字数据,离散/二进制数据需要区别对待。看看二进制的Phi系数。
对于相关系数(对于数字数据),它取决于变量之间的关系。如果它们是线性的,则首选Pearson,否则为Spearman(或其他)。