我正在使用Lucene 3.2。如何使用TokenFilter,它不仅可以过滤/修改术语,还可以将其他术语插入到流中?
例如,我想要一个过滤器,将“tv42lcd”作为输入,并在流中插入单词“tv42lcd”,“tv”,“42”,“lcd”。
我知道我可以通过实现自己的Tokenizer来实现这一点。但我仍然使用提供的StandardTokenizer。
答案 0 :(得分:1)
您始终可以将默认值与自定义混合使用:尽可能使用StandardTokenizer
逻辑,然后将其输出换行并在顶部添加自定义标记。你可以通过扩展实现这一点,但它是almost always better to use composition。