如何配置ngram tokenizer来搜索带句点的单词

时间:2015-01-29 17:29:34

标签: elasticsearch lucene tokenize

鉴于以下html文本存储在lucene索引中的文档字段中,我希望能够对“jquery”或“jquery.min”或“jquery.min.js”执行query_string查询。并且回击了。

<script type="text/javascript" src="https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js"></script>

以下是我现在用于索引上的tokenizer的内容:

        "tokenizer" : {
            "my_ngram_tokenizer" : {
                "type" : "nGram",
                "min_gram" : "3",
                "max_gram" : "8",
                "token_chars": [ "letter", "digit", "punctuation"]
            }
        }

我遇到的问题是我可以搜索“jquery”或“jquery.min.ms”而不是“jquery.min”搜索结果。

有没有办法在lucene中进行标记化,以便所有这三个查询都能返回结果?

1 个答案:

答案 0 :(得分:0)

如果没有看到其他设置,很难确定,但这里有一个适合我的设置。但是,它不会返回查询"jquery.min.ms"的文档,因此您的设置与我正在进行的操作有所不同。如果您可以发布完整的映射(或者足以捕获问题的本质),也许我可以进一步提供帮助。

这就是我所做的。我使用keyword analyzer进行搜索,并使用ngram tokenizer进行索引。我将"max_gram"的大小增加到10,因为这是"jquery.min"的大小。使用keyword分析器意味着查询不会被标记化,而只用于匹配索引标记。根据您的使用情况,这可能是您想要的,也可能不是。

DELETE /test_index

PUT /test_index
{
   "settings": {
      "number_of_shards": 1,
      "number_of_replicas": 0,
      "analysis": {
         "analyzer": {
            "my_analyzer": {
               "type": "custom",
               "tokenizer": "my_ngram_tokenizer"
            }
         },
         "tokenizer": {
            "my_ngram_tokenizer": {
               "type": "nGram",
               "min_gram": "3",
               "max_gram": "10",
               "token_chars": [
                  "letter",
                  "digit",
                  "punctuation"
               ]
            }
         }
      }
   },
   "mappings": {
      "doc": {
         "properties": {
            "my_text": {
               "type": "string",
               "index_analyzer": "my_analyzer",
               "search_analyzer": "keyword"
            }
         }
      }
   }
}

PUT /test_index/doc/1
{
    "my_text": "<script type=\"text/javascript\" src=\"https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js\"></script>"
}

PUT /test_index/doc/2
{
    "my_text": "<script src=\"https://ajax.googleapis.com/ajax/libs/angular_material/0.7.0/angular-material.min.js\"></script>"
}

POST /test_index/_search
{
   "query": {
      "query_string": {
         "default_field": "my_text",
         "query": "jquery.min"
      }
   }
}
...
{
   "took": 3,
   "timed_out": false,
   "_shards": {
      "total": 1,
      "successful": 1,
      "failed": 0
   },
   "hits": {
      "total": 1,
      "max_score": 0.0390625,
      "hits": [
         {
            "_index": "test_index",
            "_type": "doc",
            "_id": "1",
            "_score": 0.0390625,
            "_source": {
               "my_text": "<script type=\"text/javascript\" src=\"https://ajax.googleapis.com/ajax/libs/jquery/1.6.4/jquery.min.js\"></script>"
            }
         }
      ]
   }
}

以下是我使用的代码:

http://sense.qbox.io/gist/adc96befb466c1ec2e02685cc716b198e154b94e

如果有帮助,请告诉我。