我正在寻找一种不应该考虑$,@,#等特殊字符的方法。作为使用标准tokenizer的分隔符。它可以通过使用空格标记器和字分隔符过滤器组合来实现。但我希望使用标准分析仪,因为我不确定它是如何生成令牌以及利用标准分类器的其他好处。
如果无法使用标准标记生成器执行此操作。请给我一些建议如何在内部发生令牌生成以及标准tokenizer的其他好处。
- 由于
答案 0 :(得分:0)
您可以使用uax_url_email标记程序。这是对此的描述,
UAX URL Email Tokenizer
The uax_url_email tokenizer is like the standard tokenizer
except that it recognises URLs and email addresses as single tokens.
https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-uaxurlemail-tokenizer.html