我在弹性搜索中存储了很多文档(字段基于内容相似性)。现在,我可以使用Elasticsearch API将它们全部相互比较以得到相似的(哈希)文档,但是我无法进行模糊查询,因为它只允许2的编辑距离,因此是无用的。
如果无法在Elasticsearch中完成,我也在寻找可能的Node.js实现。我的第一种方法是检索Elasticsearch中每个文档的所有id和minhash值(=十六进制字符串),然后将它们存储在数组中并按字典顺序对其进行排序。然后,我只需要根据编辑距离比较最近的邻居k文档,而不是
n*(n-1)/2
比较,所以我只会得到n*k
比较。您如何看待这种方法?