找到数字编码的分类变量之间的相关性?

时间:2017-11-16 04:32:59

标签: python pandas machine-learning statistics

所以我有一个具有分类变量的数据集。我根据类别x的数量编码了0:x中的每个类别。我试图找到目标变量的变量(数字和分类)之间的相关性(它也是分类的,但是已经编码为0表示否,1表示是)。

我已经能够为所有变量(大约17个)的相关性运行此代码,它似乎确实有效,但我怀疑相关性是否正确。我之前没有计算过与我的数据集中的分类变量的相关性,只是想确保我正确地采用这种方式:

print(df['previous'].corr(df['y']))

任何帮助都会很棒!

2 个答案:

答案 0 :(得分:1)

在分类变量中找到相关性的技巧是将它们弄清楚。虽然你的目标变量很好(因为它是二进制的),但是具有多个类的分类变量需要被模糊化 -

pd.get_dummies(df['Categorical_Column'])

完成后,从dummified列中删除一列,然后获取相关性...

答案 1 :(得分:1)

分类数据的相关模拟称为交叉制表(您可以获得数据的列联表)。您可以使用pandas.crosstab在pandas中完成此操作。