Question

所以我有一个具有分类变量的数据集。我根据类别x的数量编码了0：x中的每个类别。我试图找到目标变量的变量（数字和分类）之间的相关性（它也是分类的，但是已经编码为0表示否，1表示是）。

我已经能够为所有变量（大约17个）的相关性运行此代码，它似乎确实有效，但我怀疑相关性是否正确。我之前没有计算过与我的数据集中的分类变量的相关性，只是想确保我正确地采用这种方式：

print(df['previous'].corr(df['y']))

任何帮助都会很棒！

Answer 1

在分类变量中找到相关性的技巧是将它们弄清楚。虽然你的目标变量很好（因为它是二进制的），但是具有多个类的分类变量需要被模糊化 -

pd.get_dummies(df['Categorical_Column'])

完成后，从dummified列中删除一列，然后获取相关性...

Answer 2

分类数据的相关模拟称为交叉制表（您可以获得数据的列联表）。您可以使用pandas.crosstab在pandas中完成此操作。