我有一些慈善机构的数据,其中包含某人捐赠的金额以及有关捐赠者的一些信息,如下所示。
性别年龄国家捐款_数量
F 25 UK 15
F 65法国80
M 55德国54
F 41 UK 3
M 74 France 99
我想知道哪些列与捐赠金额最密切相关,因此我可以进一步调查它们,例如某些国家与其他国家相比捐出了很多,所以最好将它们作为目标。使用pandas.corr()函数很容易,但这不适用于性别等分类数据,只适用于年龄等数字数据。
有谁知道我可以做到这一点的方式?
我读过有关使用pandas.get_dummies()将分类变量转换为虚拟/指示变量的内容。问题是我有很多专栏,其中有几个有超过40种不同的人口统计类别,所以这非常快速且难以解释(至少我这样做的方式!)。
我还发现这篇文章说你可以使用spearmanr,但也读到别处你不应该使用spearmanr进行分类数据。 pandas.corr(method = spearman)方法对分类数据仍然不起作用。 (Python: Rank order correlation for categorical data)
这是我的第一篇文章,如果我没有很好地解释自己,那么道歉!请告诉我,如果需要,我会更正。
答案 0 :(得分:0)
不确定在Python中是否存在。但是在R中确实如此:
https://www.rdocumentation.org/packages/polycor/versions/0.7-10/topics/hetcor