apache lucene 4的自定义标记器

时间:2012-09-25 20:30:34

标签: java apache lucene tokenize

我有一个标记化的文本(分裂的句子和分裂的单词)。并基于此结构创建Apache Lucene索引。扩展或替换标准化标记器以使用自定义标记的最简单方法是什么。我在看StandardTokenizerImpl,但看起来非常复杂。可能还有其他方法吗?

1 个答案:

答案 0 :(得分:0)

StandardTokenizerImpl很复杂,因为它是从JFlex语法生成的。

如果您想要实现自己的标记生成器,您需要做的就是扩展Tokenizer类。

例如,WhitespaceTokenizer是一个简单的标记生成器,可以在空格处分割标记。