我想衡量两个Conference
相关指标(AcceptanceRate
和FiveYrIF
)之间的相关性。我有以下两个DataFrame(已经相应地排序/排名):
df_if
:
Conference FiveYrIF
0 SIGMOD Conference 112.685585
1 KDD 103.674543
2 CHI 99.453096
3 SIGIR 68.967753
4 WWW 65.715631
5 SODA 60.151959
6 DAC 42.076365
7 ICCAD 39.906361
8 CIKM 33.232224
9 DATE 26.578906
10 INFOCOM 22.694122
11 Winter Simulation Conference 17.448830
12 SAC 10.646007
df_ar
:
Conference AcceptanceRate
0 CIKM 15
1 SIGIR 16
2 INFOCOM 19.7
3 KDD 21
4 DAC 22
5 DATE 23
6 WWW 24
7 CHI 25
8 ICCAD 27
9 SIGMOD Conference 27
10 SAC 29
11 SODA 29.5
12 Winter Simulation Conference 54
我想使用之前使用的FiveYrIF
方法比较两个指标(AcceptanceRates
和stats.kendalltau
),但使用的是年份(数字)排名而不是使用会议排名(文字)如此处所示。
我尝试了以下内容:
from scipy.stats import kendalltau
kendalltau(df_if['Conference'].values, df_ar['Conference'].values)
但它返回了以下错误:
TypeError: merge sort not available for item 0
我不太确定我做错了什么,我的理解是我所比较的只是有序(有序)而不是可比数字。我们比较订单,不是吗?
我试图避免不得不回到数据库并为每个会议设置某种数字ID,以便我尽可能地执行此操作。