用于分类数据的Python相关矩阵

时间:2017-05-21 11:11:29

标签: python correlation categorical-data

我有一些慈善机构的数据,其中包含某人捐赠的金额以及有关捐赠者的一些信息,如下所示。

性别年龄国家捐款_数量

F 25 UK 15

F 65法国80

M 55德国54

F 41 UK 3

M 74 France 99

我想知道哪些列与捐赠金额最密切相关,因此我可以进一步调查它们,例如某些国家与其他国家相比捐出了很多,所以最好将它们作为目标。使用pandas.corr()函数很容易,但这不适用于性别等分类数据,只适用于年龄等数字数据。

有谁知道我可以做到这一点的方式?

我读过有关使用pandas.get_dummies()将分类变量转换为虚拟/指示变量的内容。问题是我有很多专栏,其中有几个有超过40种不同的人口统计类别,所以这非常快速且难以解释(至少我这样做的方式!)。

我还发现这篇文章说你可以使用spearmanr,但也读到别处你不应该使用spearmanr进行分类数据。 pandas.corr(method = spearman)方法对分类数据仍然不起作用。  (Python: Rank order correlation for categorical data

这是我的第一篇文章,如果我没有很好地解释自己,那么道歉!请告诉我,如果需要,我会更正。

1 个答案:

答案 0 :(得分:0)

不确定在Python中是否存在。但是在R中确实如此:

https://www.rdocumentation.org/packages/polycor/versions/0.7-10/topics/hetcor