如何从查询搜索elasticsearch中删除重复项

时间:2014-08-21 11:29:58

标签: performance search elasticsearch duplicates

我正在寻找从搜索中删除重复的解决方案。

问题:

我从谷歌新闻和其他RSS订阅源中搜索了一篇文章。可以在同一篇文章中找到相同的文章,相同的标题相同内容多次出现。但是用不同的ID识别出来 有时我们甚至可以从报纸上发现洪水。当我尝试一个关键字时,我得到的结果与该项目的结果相同十几次

假设这个例子:

_index: actu
_type: page
_id: 4e3f3fc8-b535-399c-a176-ddbbf755ac82
_score: 2.0202384
_source: {
      feedname: my_news_paper
      title: some news 
      author: Bob smith
      description: Something happened in the world
      link: http://www.example.com/journal20140729/
      publishedDate: 2014-07-28T23:00:00.000Z
      source: null
      raw: { }
      categories: [
                   Journal
                  ]
      enclosures: [
      {
         url: http://www.example.com
         type: null
         length: 0
      }
      ]
  river: actu
 }
}

我的查询是这样的:

{
 "query": {
   "bool": {
     "must": [
    {
      "fuzzy_like_this": {
        "fields": [
          "_all",
          "title^2",
          "description^4"
        ],
        "like_text": "my_key_word"
       }
      }
     ]
    }
   }
  }

由于

0 个答案:

没有答案