如何计算Pandas中分组数量的相关系数?

时间:2017-10-29 13:53:32

标签: python pandas pearson-correlation

我有一个DataFrame,其中每行代表一次交通事故。其中两列是Speed_limitNumber_of_casualties。我想计算速度限制与每个速度限制的伤亡人数与事故数之比的Pearson相关系数。

到目前为止,我的解决方案是将相关数量作为数组并使用SciPy的pearsonr

import pandas as pd
import scipy.stats

df = pd.DataFrame({'Speed_limit': [10, 10, 20, 20, 20, 30],
                   'Number_of_casualties': [1, 2, 3, 4, 1, 4]})

accidents_per_speed_limit = df['Speed_limit'].value_counts().sort_index()

number_of_casualties_per_speed_limit = df.groupby('Speed_limit').sum()['Number_of_casualties']

speed_limit = accidents_per_speed_limit.index
ratio = number_of_casualties_per_speed_limit.values / accidents_per_speed_limit.values

r, _ = scipy.stats.pearsonr(x=speed_limit, y=ratio)

print("The Pearson's correlation coefficient between the number of casualties per accidents and the speed limit is {r}.".format(r=r))

但是,在我看来,应该可以使用pandas.DataFrame.corr方法更优雅地完成此操作。我怎么能重构这段代码以使它更像pandas - 像?

2 个答案:

答案 0 :(得分:3)

您可以直接使用groupby数据的mean代替count和sum,然后使用series corr(默认方法是pearson),即

m = df.groupby('Speed_limit').mean().reset_index()
m['Speed_limit'].corr(m['Number_of_casualties'])

输出:

0.99926008128973687

答案 1 :(得分:1)

我使用两个辅助DataFrames找到了以下方法:

df_aux = df.groupby('Speed_limit').agg(['count', 'sum'])
df_aux2 = pd.DataFrame({'ratio': df_aux['Number_of_casualties', 'sum'] / df_aux['Number_of_casualties', 'count'],
                        'speed_limit': df_aux.index})
print(df_aux2.corr()['ratio']['speed_limit'])

证实了用scipy.stats.pearsonr获得的结果。但它仍然不是很优雅,我希望有改进的建议。