使用python的stats.kendalltau函数

时间:2015-09-09 08:58:35

标签: python statistics scipy correlation

我想衡量两个Conference相关指标(AcceptanceRateFiveYrIF)之间的相关性。我有以下两个DataFrame(已经相应地排序/排名):

df_if

                      Conference    FiveYrIF
0              SIGMOD Conference  112.685585
1                            KDD  103.674543
2                            CHI   99.453096
3                          SIGIR   68.967753
4                            WWW   65.715631
5                           SODA   60.151959
6                            DAC   42.076365
7                          ICCAD   39.906361
8                           CIKM   33.232224
9                           DATE   26.578906
10                       INFOCOM   22.694122
11  Winter Simulation Conference   17.448830
12                           SAC   10.646007 

df_ar

                      Conference AcceptanceRate
0                           CIKM             15
1                          SIGIR             16
2                        INFOCOM           19.7
3                            KDD             21
4                            DAC             22
5                           DATE             23
6                            WWW             24
7                            CHI             25
8                          ICCAD             27
9              SIGMOD Conference             27
10                           SAC             29
11                          SODA           29.5
12  Winter Simulation Conference             54 

我想使用之前使用的FiveYrIF方法比较两个指标(AcceptanceRatesstats.kendalltau),但使用的是年份(数字)排名而不是使用会议排名(文字)如此处所示。

我尝试了以下内容:

from scipy.stats import kendalltau

kendalltau(df_if['Conference'].values, df_ar['Conference'].values)

但它返回了以下错误:

TypeError: merge sort not available for item 0

我不太确定我做错了什么,我的理解是我所比较的只是有序(有序)而不是可比数字。我们比较订单,不是吗?

我试图避免不得不回到数据库并为每个会议设置某种数字ID,以便我尽可能地执行此操作。

0 个答案:

没有答案