我存储了一些新闻来源的所有文章。一篇来自例如新闻的新闻文章Cnn.com,可能会被其他人转发。实际上,我最终多次保存相同的文章。
如果我搜索“特斯拉”,我可能会得到3篇相互之间相差90%的文章。我可以使用Levenshtein distance在我的应用中比较和过滤重复项,但我宁愿使用ES过滤它。
我可以说give me all articles matching WORD, but only return the first if other hits are more than 90% equal to the first
吗?
干杯, 马丁
答案 0 :(得分:1)
如果您真的需要将所有这些记录保存在ES中(而不是在索引之前使用levenshtein 过滤掉),那么您可能正在寻找{{ 3}}字段崩溃。