如何为多字短语获取文档的术语频率?

时间:2017-03-10 18:15:58

标签: lucene

我能够在Lucene获得文件的单一术语频率。我如何做同样的事情,但是对于多措辞短语的自定义列表?例如:说我在文档中有以下文字:

The quick brown fox jumps over the lazy dog.
The quick onyx goblin jumps over the lazy dwarf.

术语频率向量将显示:

Word       Frequency
----       ---------
the        4
quick      2
brown      1
onyx       1
fox        1
goblin     1
jumps      2
over       2
lazy       2
dog        1
dwarf      1

但是,如果我想计算“快速”这个短语的实例呢?在这种情况下,将有2场比赛。

1 个答案:

答案 0 :(得分:1)

我打赌你使用简单的分析链。您可以将ShingleFilter(带minShingleSize=2maxShingleSize=2)附加到令牌过滤器列表中,以便令牌流的输出如下所示:

the quick - > quick brown - > brown fox - > fox jumps - > jumps over - > over the - > the lazy - > lazy dog

因此,您可以将问题减少到已解决的问题。