使用simhash检测几乎重复的文档

时间:2019-01-28 15:51:34

标签: python duplicates simhash

我在github中找到了这个python项目,但是当我出于意图目的尝试使用它来检测几乎重复的文档(例如json)时,我没有得到足够的信息从 README.md 文件中了解如何执行此操作?它只显示用于计算

import simhash

a = simhash.compute(...) 
b = simhash.compute(...)
simhash.num_differing_bits(a, b)

AND 如何使用

查找匹配项
import simhash
hashes = []
blocks = 4
distance = 3
matches = simhash.find_all(hashes, blocks, distance)

到目前为止,我已经尝试过:克隆此存储库后,我已经安装了所有要求,但是当我尝试运行setup.pybench.py时,显示

  

ImportError:没有名为simhash.simhash的模块

这个项目很棒,但是我遇到了这个困难,因为 README.md 文件对如何创建文档哈希? 如何检测几乎重复的数据?。因此,我需要有关如何对文档进行哈希处理的帮助?谁能帮助我了解如何使用python使用 simhash 实施近乎重复的文档检测,或提供任何分步教程链接来实现此目的?顺便说一下,我见过that,但这并不包含实现它的完整步骤。

1 个答案:

答案 0 :(得分:0)

试试这个

pip install git+https://github.com/seomoz/simhash-py.git

另外还有 dlecocq 在问题中发布的更多描述。下面是那个链接

https://github.com/seomoz/simhash-py/issues/47