我有一个数据框,如下所示:
df = pd.DataFrame(data=[[1, 'Berlin',], [2, 'Paris', ],
[3, 'Lausanne', ], [4, 'Bayswater',],
[5, 'Table Bay', ], [6, 'Bejing',],
[7, 'Bombay',], [8, 'About the IIS']],
columns=['id', 'text'],)
并且我想使用水母库中的jaro_winkler来计算每个字符串与其余字符串的相似度得分,然后得出最相似的一个或相似度矩阵如下:
str1 str2 str3
str1 1 0.6 0.7
str2 0.6 1 0.3
str3 0.7 0.3 1
如何快速获得此结果。现在,我仅使用循环比较每个结果并将结果存储在列表中。
def sim_cal(string1, string2):
similar = jellyfish.jaro_winkler(string1, string2)
return similar
但是,如果数据变大,速度将会非常慢,那么如果有什么方法可以加快速度呢?
谢谢。