我有3000个数据集,我正在尝试使用MinHash查找每对之间的估计相似性,为此,我正在使用datasketch库,但是执行时间过长且从未完成,任何提高性能的提示或我使用另一个MinHash库。
for i in range(3000):
for j in range(i,3000):
data1=new_tokens_in_sentence[i]
data2=new_tokens_in_sentence[j]
#print(data1)
m1, m2 = MinHash(16), MinHash(16)
for d in data1:
m1.update(d.encode('utf8'))
for d in data2:
m2.update(d.encode('utf8'))