如何获得分类变量和连续变量之间的相关性?

时间:2019-05-03 06:18:29

标签: python numpy correlation categorical-data

我想获取类别变量和连续变量之间的相关性。

我使用np.corrcoef来查看stackoverflow问题并尝试执行相同的操作。但是,相关性是通过拟合数据来查看x和y之间的关系。我想知道用虚拟变量替换x(类别变量)后,得出y(数值变量)的相关性是否有意义。

例如,名为“火的类型”的类别变量具有四个类别,A类,B类,C类,D类,而y是称为消防员人力的数字变量,并且使用np.corrcoef

结果,A型人员和消防员的人员之间的相关系数是-0.2。

分析这些数据时,它是否得出有意义的结果?

1 个答案:

答案 0 :(得分:0)

双峰关联是可以反映连续特征和分类特征之间关系的关联。

在python中,您可以使用:

from scipy import stats
stats.pointbiserialr(x, y)