如何在Elasticsearch上比较数百万份精简文档?

时间:2019-03-25 08:34:30

标签: elasticsearch string-comparison fuzzy-search minhash

我在弹性搜索中存储了很多文档(字段基于内容相似性)。现在,我可以使用Elasticsearch API将它们全部相互比较以得到相似的(哈希)文档,但是我无法进行模糊查询,因为它只允许2的编辑距离,因此是无用的。

如果无法在Elasticsearch中完成,我也在寻找可能的Node.js实现。我的第一种方法是检索Elasticsearch中每个文档的所有id和minhash值(=十六进制字符串),然后将它们存储在数组中并按字典顺序对其进行排序。然后,我只需要根据编辑距离比较最近的邻居k文档,而不是

n*(n-1)/2比较,所以我只会得到n*k比较。您如何看待这种方法?

0 个答案:

没有答案