EdgeNGram与Tire和ElasticSearch

时间:2013-03-06 00:05:21

标签: ruby-on-rails elasticsearch tire

如果我有两个字符串:

  • Doe,Joe
  • Doe,Jonathan

我想实现一个搜索:

  • “Doe”> “Doe,Joe”,“Doe,Jonathan”
  • “Doe J”> “Doe,Joe”,“Doe,Jonathan”
  • “Jon Doe”> “Doe,Jonathan”
  • “Jona Do”> “Doe,Jonathan”

这是我的代码:

settings analysis: {
    filter: {
      nameNGram: {
        type: "edgeNGram",
        min_gram: 1,
        max_gram: 20,
      }
    },
    tokenizer: {
      non_word: {
        type: "pattern",
        pattern: "[^\\w]+"
      }
    },
    analyzer: {
      name_analyzer: {
        type: "custom",
        tokenizer: "non_word",
        filter: ["lowercase", "nameNGram"]
      },
    }
  } do
  mapping do
    indexes :name, type: "multi_field", fields: {
      analyzed:   { type: "string", index: :analyzed, index_analyzer: "name_analyzer" }, # for indexing
      unanalyzed: { type: "string", index: :not_analyzed, :include_in_all => false } # for sorting
    }
  end
end

def self.search(params)
  tire.search(:page => params[:page], :per_page => 20) do
    query do
      string "name.analyzed:" + params[:query], default_operator: "AND"
    end
    sort do
      by "name.unanalyzed", "asc"
    end
  end
end

不幸的是,这似乎没有起作用......令牌化看起来很棒,对于“Doe,Jonathan”我得到类似“d”,“do”,“doe”,“j”,“jo”的内容,“jon”,“jona”等,但如果我搜索“do AND jo”,我什么也得不回来。但是,如果我搜索“jona”,我会回来“Doe,Jonathan。”我做错了什么?

1 个答案:

答案 0 :(得分:0)

如果要创建自动填充,您应该只使用EdgeNGram。我怀疑你想使用模式过滤器来分隔我的逗号。

这样的事情:

"tokenizer": {
    "comma_pattern_token": {
         "type": "pattern",
         "pattern": ",",
         "group": -1
     }
 }

如果我错了,你需要edgeNGrams出于其他原因那么你的问题是你的索引分析器忽略了停用词(例如单词AND)而你的搜索分析器却没有。您需要为search_analyzer创建一个不包含停用词过滤器的自定义分析器。