我想获取类别变量和连续变量之间的相关性。
我使用np.corrcoef
来查看stackoverflow问题并尝试执行相同的操作。但是,相关性是通过拟合数据来查看x和y之间的关系。我想知道用虚拟变量替换x(类别变量)后,得出y(数值变量)的相关性是否有意义。
例如,名为“火的类型”的类别变量具有四个类别,A类,B类,C类,D类,而y是称为消防员人力的数字变量,并且使用np.corrcoef
。
结果,A型人员和消防员的人员之间的相关系数是-0.2。
分析这些数据时,它是否得出有意义的结果?
答案 0 :(得分:0)
双峰关联是可以反映连续特征和分类特征之间关系的关联。
在python中,您可以使用:
from scipy import stats
stats.pointbiserialr(x, y)