应用错误收集

这是one虽然我没有测试过它。开源的好处。

这是Data mining和similarity search中的问题。有许多文章描述了如何做到这一点，并扩展到大量数据。

我有github : mksteve, clustering的实施（blog及其wikipedia : Metric tree的一些评论）。这要求您所采取的措施符合三角不等式（wikipedia : Metric space。即从项目A到项目C的度量距离小于或等于距离A到B +距离B到C. / p>

鉴于不等式，可以修剪搜索空间，因此只搜索可能与目标区域重叠的子树。没有该功能是真的（公制空间）。

simhash中差异的位数可能是度量空间。

这些数据集的一般用法在文档提到mapReduce时提到，它通常在hadoop cluster上运行。处理节点每个都被赋予数据的子集，并从其本地数据集中找到一组目标匹配。然后将它们组合在一起，得出完全有序的相似项目清单。

有些论文（不确定参考文献）暗示在群集中使用m-tree，搜索空间的不同部分被赋予不同的群集，但我不确定hadoop infra-structure是否支持使用如此高水平的抽象。