论文:http://www2007.org/papers/paper215.pdf
我只是想知道那篇论文的第3章是否有任何实现。我的意思是在大型数据集中查询,不仅仅是simhash(很容易找到simhash实现)。
感谢〜
答案 0 :(得分:0)
这是one虽然我没有测试过它。开源的好处。
答案 1 :(得分:0)
这是Data mining
和similarity search
中的问题。有许多文章描述了如何做到这一点,并扩展到大量数据。
我有github : mksteve, clustering的实施(blog及其wikipedia : Metric tree的一些评论)。这要求您所采取的措施符合三角不等式(wikipedia : Metric space。即从项目A到项目C的度量距离小于或等于距离A到B +距离B到C. / p>
鉴于不等式,可以修剪搜索空间,因此只搜索可能与目标区域重叠的子树。没有该功能是真的(公制空间)。
simhash中差异的位数可能是度量空间。
这些数据集的一般用法在文档提到mapReduce时提到,它通常在hadoop cluster
上运行。处理节点每个都被赋予数据的子集,并从其本地数据集中找到一组目标匹配。然后将它们组合在一起,得出完全有序的相似项目清单。
有些论文(不确定参考文献)暗示在群集中使用m-tree,搜索空间的不同部分被赋予不同的群集,但我不确定hadoop infra-structure是否支持使用如此高水平的抽象。