应用错误收集

我有一个多语言数据集和一个标准分析器，可以很好地处理这个数据集的标记化。唯一不好的部分是它删除了特殊字符，如@，＃，：等。有什么方法可以使用标准的标记器，仍然可以搜索特殊字符吗？

我已经研究过组合分析器插件，它没有像我希望的那样工作。显然，分析器的组合不像令牌过滤器那样在链中工作。他们独立工作，这对我没用。此外，我查看了char映射过滤器，以便在对其进行标记之前处理数据，但它不像单词分隔符标记过滤器那样，我们可以指定“type_table”将特殊字符转换为ALPHANUM。它只是将一个单词映射到另一个单词。因此，我将无法搜索特殊字符。此外，我已经研究过模式分析器，它可以用于特殊字符，但不推荐用于多语言数据集。

为了解决这个问题，有人能指出我正确的方向吗？提前谢谢！

如何在elasticsearch中配置标准tokenizer

0 个答案: