Java lucene标准分析器的默认分隔符?

时间:2011-06-03 07:01:24

标签: java lucene delimiter

我正在寻找java lucene标准分析器对输入字符串进行标记的所有分隔符。

需要知道默认用于标记化的所有分隔符。

1 个答案:

答案 0 :(得分:0)

我知道(来自Lucene in Action)所有不具有 a-zA-Z 的字符或具有变音符号的a-zA-Z的变体被用作分隔符,包括数字。
所以你可能让Mc'Donald分裂为“Mc”“Donald”,你可能将“Web2.0”标记为“Web”,依此类推。
最好是进行测试并输入各种字符,然后在此处发布结果。