我正在寻找从搜索中删除重复的解决方案。
问题:
我从谷歌新闻和其他RSS订阅源中搜索了一篇文章。可以在同一篇文章中找到相同的文章,相同的标题和相同内容多次出现。但是用不同的ID识别出来 有时我们甚至可以从报纸上发现洪水。当我尝试一个关键字时,我得到的结果与该项目的结果相同十几次
假设这个例子:
_index: actu
_type: page
_id: 4e3f3fc8-b535-399c-a176-ddbbf755ac82
_score: 2.0202384
_source: {
feedname: my_news_paper
title: some news
author: Bob smith
description: Something happened in the world
link: http://www.example.com/journal20140729/
publishedDate: 2014-07-28T23:00:00.000Z
source: null
raw: { }
categories: [
Journal
]
enclosures: [
{
url: http://www.example.com
type: null
length: 0
}
]
river: actu
}
}
我的查询是这样的:
{
"query": {
"bool": {
"must": [
{
"fuzzy_like_this": {
"fields": [
"_all",
"title^2",
"description^4"
],
"like_text": "my_key_word"
}
}
]
}
}
}
由于