标签: java lucene delimiter
我正在寻找java lucene标准分析器对输入字符串进行标记的所有分隔符。
需要知道默认用于标记化的所有分隔符。
答案 0 :(得分:0)
我知道(来自Lucene in Action)所有不具有 a-zA-Z 的字符或具有变音符号的a-zA-Z的变体被用作分隔符,包括数字。 所以你可能让Mc'Donald分裂为“Mc”“Donald”,你可能将“Web2.0”标记为“Web”,依此类推。 最好是进行测试并输入各种字符,然后在此处发布结果。