在Lucene中,TokenFilter如何发出多个术语?

时间:2011-06-17 15:15:53

标签: java lucene tokenize

我正在使用Lucene 3.2。如何使用TokenFilter,它不仅可以过滤/修改术语,还可以将其他术语插入到流中?

例如,我想要一个过滤器,将“tv42lcd”作为输入,并在流中插入单词“tv42lcd”,“tv”,“42”,“lcd”。

我知道我可以通过实现自己的Tokenizer来实现这一点。但我仍然使用提供的StandardTokenizer。

1 个答案:

答案 0 :(得分:1)

您始终可以将默认值与自定义混合使用:尽可能使用StandardTokenizer逻辑,然后将其输出换行并在顶部添加自定义标记。你可以通过扩展实现这一点,但它是almost always better to use composition