是否有“检测WebDrawling的近似重复”中描述的想法的实现

时间:2010-11-01 15:06:23

标签: algorithm duplicates similarity

论文:http://www2007.org/papers/paper215.pdf

我只是想知道那篇论文的第3章是否有任何实现。我的意思是在大型数据集中查询,不仅仅是simhash(很容易找到simhash实现)。

感谢〜

2 个答案:

答案 0 :(得分:0)

这是one虽然我没有测试过它。开源的好处。

答案 1 :(得分:0)

这是Data miningsimilarity search中的问题。有许多文章描述了如何做到这一点,并扩展到大量数据。

我有github : mksteve, clustering的实施(blog及其wikipedia : Metric tree的一些评论)。这要求您所采取的措施符合三角不等式(wikipedia : Metric space。即从项目A到项目C的度量距离小于或等于距离A到B +距离B到C. / p>

鉴于不等式,可以修剪搜索空间,因此只搜索可能与目标区域重叠的子树。没有该功能是真的(公制空间)。

simhash中差异的位数可能是度量空间。

这些数据集的一般用法在文档提到mapReduce时提到,它通常在hadoop cluster上运行。处理节点每个都被赋予数据的子集,并从其本地数据集中找到一组目标匹配。然后将它们组合在一起,得出完全有序的相似项目清单。

有些论文(不确定参考文献)暗示在群集中使用m-tree,搜索空间的不同部分被赋予不同的群集,但我不确定hadoop infra-structure是否支持使用如此高水平的抽象。