如何找到问题的位置?

时间:2019-01-30 18:55:46

标签: find similarity

我正在处理一个数据集,需要计算两个字段之间的相似度。

对于一个用例,我需要比较客户端是否相同或几乎相同。我以为余弦相似性,但是使用scikit学习包需要花费很长时间。有27万行

我确实创建了两个具有相同字段'input_1'和'input_2'的向量,并在每个组合之间计算并存储余弦值。

input_1 = ['What is the step by step guide to invest in share market in india?'; What is the story of Kohinoor (Koh-i-Noor) Diamond?' (...)]

input_2 = input_1

我看到了最快的计算(https://bergvca.github.io/2017/10/14/super-fast-string-matching.html)。

问题在于,它基于CSR矩阵(并且超过了n-grams),而我找不到找到方法:

Index; Input_1; Input_2;Similarité 1; blablabla; blablabla; 1.000000 2; abc; cab,... 等等...

我的问题是从aw​​esome_cossim的结果返回到我使用的一个简单数据帧(为了共享结果):这是行/列号?

最后一个问题:我试图为整个数据集进行计算(为所有条目设置awesome_cossim_top)。

你能帮我吗?

非常感谢:)

亲切的问候, Allal

0 个答案:

没有答案