适用于大型数据集的MinHash数据草图

时间:2018-11-30 02:46:57

标签: python minhash

我有3000个数据集,我正在尝试使用MinHash查找每对之间的估计相似性,为此,我正在使用datasketch库,但是执行时间过长且从未完成,任何提高性能的提示或我使用另一个MinHash库。

for i in range(3000):
        for j in range(i,3000):
            data1=new_tokens_in_sentence[i]
            data2=new_tokens_in_sentence[j]
            #print(data1)

            m1, m2 = MinHash(16), MinHash(16)

            for d in data1:
                m1.update(d.encode('utf8'))
            for d in data2:
                m2.update(d.encode('utf8'))

0 个答案:

没有答案