Question

我能够在Lucene获得文件的单一术语频率。我如何做同样的事情，但是对于多措辞短语的自定义列表？例如：说我在文档中有以下文字：

The quick brown fox jumps over the lazy dog.
The quick onyx goblin jumps over the lazy dwarf.

术语频率向量将显示：

Word       Frequency
----       ---------
the        4
quick      2
brown      1
onyx       1
fox        1
goblin     1
jumps      2
over       2
lazy       2
dog        1
dwarf      1

但是，如果我想计算“快速”这个短语的实例呢？在这种情况下，将有2场比赛。

Answer 1

我打赌你使用简单的分析链。您可以将ShingleFilter（带minShingleSize=2和maxShingleSize=2）附加到令牌过滤器列表中，以便令牌流的输出如下所示：

the quick - ＆gt; quick brown - ＆gt; brown fox - ＆gt; fox jumps - ＆gt; jumps over - ＆gt; over the - ＆gt; the lazy - ＆gt; lazy dog。

因此，您可以将问题减少到已解决的问题。

如何为多字短语获取文档的术语频率？

1 个答案: