我想了解为什么在使用标准分析器通过弹性搜索从给定的字符串创建标记时会删除一些特殊字符的原因。
我使用_analyse API来了解给定的随机字符串如何通过“标准”作为“分析器”分解为标记
我在分析中使用的一些随机字符串如下
1)。 “ Sample.doc”->“ Sample.doc”
2)。 “ Sample..doc”->“ Sample”,“ doc”(为什么要创建两个令牌,其工作方式应与上面的示例相同)
3)。 “ Sample1.doc”->“ Sample1”,“ doc”(为什么(。)会在此处转义)
4)。 “ Sample \ 1.doc”->“ Sample”,“ 1”,“ doc”(在这里,我尝试转义“ 1”字符,但它以不同的方式标记化符号)
据我了解,弹性搜索会忽略链接中给出的保留字符:-https://www.elastic.co/guide/en/elasticsearch/reference/current/query-dsl-query-string-query.html#_reserved_characters
5)。 “ Sample \(。doc”-> kibana控制台中的错误(这是转义字符的正确方法,因为我在example4中也做了同样的工作,并且有效)
我真的很想了解在标记化时如何删除或转义哪些字符。我错过了什么还是什么?