Question

我想衡量两个Conference相关指标（AcceptanceRate和FiveYrIF）之间的相关性。我有以下两个DataFrame（已经相应地排序/排名）：

df_if：

                      Conference    FiveYrIF
0              SIGMOD Conference  112.685585
1                            KDD  103.674543
2                            CHI   99.453096
3                          SIGIR   68.967753
4                            WWW   65.715631
5                           SODA   60.151959
6                            DAC   42.076365
7                          ICCAD   39.906361
8                           CIKM   33.232224
9                           DATE   26.578906
10                       INFOCOM   22.694122
11  Winter Simulation Conference   17.448830
12                           SAC   10.646007

df_ar：

                      Conference AcceptanceRate
0                           CIKM             15
1                          SIGIR             16
2                        INFOCOM           19.7
3                            KDD             21
4                            DAC             22
5                           DATE             23
6                            WWW             24
7                            CHI             25
8                          ICCAD             27
9              SIGMOD Conference             27
10                           SAC             29
11                          SODA           29.5
12  Winter Simulation Conference             54

我想使用之前使用的FiveYrIF方法比较两个指标（AcceptanceRates和stats.kendalltau），但使用的是年份（数字）排名而不是使用会议排名（文字）如此处所示。

我尝试了以下内容：

from scipy.stats import kendalltau

kendalltau(df_if['Conference'].values, df_ar['Conference'].values)

但它返回了以下错误：

TypeError: merge sort not available for item 0

我不太确定我做错了什么，我的理解是我所比较的只是有序（有序）而不是可比数字。我们比较订单，不是吗？

我试图避免不得不回到数据库并为每个会议设置某种数字ID，以便我尽可能地执行此操作。

使用python的stats.kendalltau函数

0 个答案: