所以我有一个具有分类变量的数据集。我根据类别x的数量编码了0:x中的每个类别。我试图找到目标变量的变量(数字和分类)之间的相关性(它也是分类的,但是已经编码为0表示否,1表示是)。
我已经能够为所有变量(大约17个)的相关性运行此代码,它似乎确实有效,但我怀疑相关性是否正确。我之前没有计算过与我的数据集中的分类变量的相关性,只是想确保我正确地采用这种方式:
print(df['previous'].corr(df['y']))
任何帮助都会很棒!
答案 0 :(得分:1)
在分类变量中找到相关性的技巧是将它们弄清楚。虽然你的目标变量很好(因为它是二进制的),但是具有多个类的分类变量需要被模糊化 -
pd.get_dummies(df['Categorical_Column'])
完成后,从dummified列中删除一列,然后获取相关性...
答案 1 :(得分:1)
分类数据的相关模拟称为交叉制表(您可以获得数据的列联表)。您可以使用pandas.crosstab在pandas中完成此操作。