我能够在Lucene获得文件的单一术语频率。我如何做同样的事情,但是对于多措辞短语的自定义列表?例如:说我在文档中有以下文字:
The quick brown fox jumps over the lazy dog.
The quick onyx goblin jumps over the lazy dwarf.
术语频率向量将显示:
Word Frequency
---- ---------
the 4
quick 2
brown 1
onyx 1
fox 1
goblin 1
jumps 2
over 2
lazy 2
dog 1
dwarf 1
但是,如果我想计算“快速”这个短语的实例呢?在这种情况下,将有2场比赛。
答案 0 :(得分:1)
我打赌你使用简单的分析链。您可以将ShingleFilter(带minShingleSize=2
和maxShingleSize=2
)附加到令牌过滤器列表中,以便令牌流的输出如下所示:
the quick
- > quick brown
- > brown fox
- > fox jumps
- > jumps over
- > over the
- > the lazy
- > lazy dog
。
因此,您可以将问题减少到已解决的问题。