我有一个标记化的文本(分裂的句子和分裂的单词)。并基于此结构创建Apache Lucene索引。扩展或替换标准化标记器以使用自定义标记的最简单方法是什么。我在看StandardTokenizerImpl,但看起来非常复杂。可能还有其他方法吗?
答案 0 :(得分:0)
StandardTokenizerImpl很复杂,因为它是从JFlex语法生成的。
如果您想要实现自己的标记生成器,您需要做的就是扩展Tokenizer类。
例如,WhitespaceTokenizer是一个简单的标记生成器,可以在空格处分割标记。