python-具有离散和连续的多元回归

时间:2018-10-22 15:08:10

标签: python regression

我有一个包含53个独立变量(X)和1个因变量(Y)的数据集。

因变量是布尔值(1或0),而独立集由连续变量和离散变量组成。

我打算使用pandas.DataFrame.corr()列出对输出Y影响最大的变量。

corr可以是:

  • 皮尔逊回归
  • kendall回归
  • 矛兵回归

在3种方法中我得到不同的结果。

对于给定数据集的形状(离散+连续),您有何建议最合适?

1 个答案:

答案 0 :(得分:0)

相关仅用于数字数据,离散/二进制数据需要区别对待。看看二进制的Phi系数。

对于相关系数(对于数字数据),它取决于变量之间的关系。如果它们是线性的,则首选Pearson,否则为Spearman(或其他)。