Question

我看到了问题here，该问题说明了如何创建自定义分析器以同时具有同义词支持和语言支持。

但是，它似乎也创建了自己的词干提取器和停用词集合。

如果我想向“丹麦式”内置分析仪添加同义词怎么办？我可以参考内置的丹麦词干和停用词过滤器吗？例如，它仅称为danish_stemmer和danish_stopwords吗？

也许内置过滤器列表会有所帮助-在哪里可以看到这些内置过滤器的名称？

Answer 1

对于每个预构建的语言分析器，都有一个如何重建它的示例。对于danish，有以下示例：

PUT /danish_example
{
  "settings": {
    "analysis": {
      "filter": {
        "danish_stop": {
          "type":       "stop",
          "stopwords":  "_danish_" 
        },
        "danish_keywords": {
          "type":       "keyword_marker",
          "keywords":   ["eksempel"] 
        },
        "danish_stemmer": {
          "type":       "stemmer",
          "language":   "danish"
        }
      },
      "analyzer": {
        "rebuilt_danish": {
          "tokenizer":  "standard",
          "filter": [
            "lowercase",
            "danish_stop",
            "danish_keywords",
            "danish_stemmer"
          ]
        }
      }
    }
  }
}

这实际上是在构建自己的custom analyzer。

可以找到可用的词干提取器列表here。可用的预设停用词列表列表可以在here中找到。

希望有帮助！

重新使用内置语言过滤器？

1 个答案: