我有一个系统可以提取文章并将它们存储在elasticsearch索引中。当有新文章发布时,我想确定文章在我的网站上发布之前的内容有多独特,这样我就可以尝试减少重复项。
目前,我使用<script src="https://ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<input type="checkbox" name="check" value="ho">
过滤器搜索索引的新文章标题,如果有0个结果,则可以发布:
min_score
这不是很准确,你可以想象,大多数文章都会发表相当多的重复文章。
您认为我如何改善这一点(如果有的话)?
答案 0 :(得分:0)
嗯,您需要在索引文档之前处理此问题。 我最好的解决方案是根据标题对_id进行建模,这样如果存在相同的标题,则可以丢弃新文档(使用_create API)或者可以丢弃所有文档。 更好的是,您可以使用upsert,以便通过重复信息更新exisitng文档,就像您可以看到来自此源的新闻也出现在此源中。 您可以看到相同here的一些实际示例。