我正在处理一个数据集,需要计算两个字段之间的相似度。
对于一个用例,我需要比较客户端是否相同或几乎相同。我以为余弦相似性,但是使用scikit学习包需要花费很长时间。有27万行
我确实创建了两个具有相同字段'input_1'和'input_2'的向量,并在每个组合之间计算并存储余弦值。
input_1 = ['What is the step by step guide to invest in share market in india?'; What is the story of Kohinoor (Koh-i-Noor) Diamond?' (...)]
input_2 = input_1
我看到了最快的计算(https://bergvca.github.io/2017/10/14/super-fast-string-matching.html)。
问题在于,它基于CSR矩阵(并且超过了n-grams),而我找不到找到方法:
Index; Input_1; Input_2;Similarité 1; blablabla; blablabla; 1.000000 2; abc; cab,... 等等...
我的问题是从awesome_cossim的结果返回到我使用的一个简单数据帧(为了共享结果):这是行/列号?
最后一个问题:我试图为整个数据集进行计算(为所有条目设置awesome_cossim_top)。
你能帮我吗?
非常感谢:)
亲切的问候, Allal