在elasticsearch中查找可能的重复文档?

时间:2018-06-01 02:27:53

标签: elasticsearch

我是ElasticSearch的新手,来自传统的SQL背景。

在我的ES数据库中,我存储有关文章的元信息: - 标题 - 内容 - 年

我试图编写一个查询,在添加新文章之前找到现有文章的潜在副本。理想情况下,我希望获得内容上80%以上匹配的所有文件,然后选择标题和年份匹配。

我在下面有这个,但是对内容的查询默认为AND并且只返回完全匹配,而切换到OR则返回所有内容。

query: { bool: { minimum_should_match: "85%", must: { match: { content: { query: 'this is the article copy that could be thousands of words long' } } }, should: { match: title: { query: "Article title that would be nice to match but not necessary", fuzziness: "auto" } } } } } 非常感谢任何帮助或指示!

0 个答案:

没有答案