我想计算同一数据框中两个不同列之间的相关性。这是我使用的代码:
Correlation_unemp_demvote=np.corrcoef(New_table['unemp'],
New_table['demVote'])
Correlation_unemp_demvote
结果如下:
array([[ 1. , 0.34167764],
[ 0.34167764, 1. ]])
我实际上期望获得介于-1和1之间的值,正如实际相关系数定义所解释的那样。你能告诉我刚刚得到的结果吗?我也看到很多函数都引用了相关性,比如corr()或correlate()。哪一个应该更好用?
谢谢,
答案 0 :(得分:5)
pd.Series.corr
就是你想要的
这样做
Correlation_unemp_demvote = New_table['unemp'].corr(New_table['demVote'])
示例
df = pd.DataFrame(np.random.rand(10, 2), columns=list('AB'))
df.A.corr(df.B)
-0.1814956009745472