如何使用BleveSearch获得精确的短语匹配?

时间:2017-11-17 12:32:36

标签: json go full-text-search text-search bleve

我正在搜索数据集中特定短语的同义词。我有2个JSON文件,其中存储的数据包含yes和no的同义词。如果我查询“不感兴趣”,它会同时给出是和否短语/同义词,预期结果就是没有短语/同义词。

烯GEN-yes.json

{
"tag":"en-gen-yes",
"phrases": [
    "yes",
    "yeah",
    "sure",
    "suits me",
    "interested"
]

}

烯GEN-no.json

{
"tag":"en-gen-no",
"phrases": [
    "no",
    "nope",
    "not sure",
    "does not suits me",
    "not interested"
]

}

查询代码

query := bleve.NewMatchPhraseQuery("not interested")
    req := bleve.NewSearchRequest(query)
    req.Fields = []string{"phrases"}
    searchResults, err := paraphraseIndex.Search(req)
    if err != nil {
        log.Fatal(err)
    }
    if searchResults.Hits.Len() == 0 {
        fmt.Println("No matches found")
    } else {
        for i := 0; i < searchResults.Hits.Len(); {
            hit := searchResults.Hits[i]
            fmt.Printf("%s\n", hit.Fields["phrases"])
            i = i + 1
        }
    }

结果为

  

[没有不确定不适合我不感兴趣]   [是的,确实适合我感兴趣]

预期结果仅为

  

[没有不确定不适合我不感兴趣]

1 个答案:

答案 0 :(得分:0)

它与两者匹配的原因是您使用的MatchPhraseQuery将分析搜索词。你没有在这里显示IndexMapping,所以我无法确定,但我会假设你正在使用&#34;标准&#34;分析仪。此分析器删除英语停用词,并在此处定义英语停用词列表:

https://github.com/blevesearch/bleve/blob/master/analysis/lang/en/stop_words_en.go#L281

所以,这意味着当你为#34做一个MatchPhraseQuery时,不感兴趣&#34;你最终只是在寻找感兴趣的&#34;。这个词恰好也出现在你的&#34;是&#34;同义词列表。

值得注意的是,有一个名为PhraseQuery(没有匹配)的变体可以进行精确匹配。虽然那不会删除“#34;而不是&#34;在搜索时,它仍然无法找到匹配项。原因是&#34;不是&#34;已经在索引时删除了,所以&#34;不感兴趣&#34;找不到任何匹配(既不是也可能不是)。

解决方案是配置一个自定义分析器,该分析器要么不删除任何停用词,要么使用不包含单词&#34;而不是&#34;的自定义停用词列表。如果您执行此操作,并将其用于索引编制和搜索,则您使用的查询应该开始正常运行。