Lucene找到共现名单

时间:2014-05-06 16:37:19

标签: java lucene

我有一个大文本文件(语料库)的Lucene索引,对于一些n-gram我需要找到一个相似单词列表(共现列表)。

例如,我有一个unigram - “table”,术语频率为1500,我需要获得这样的共现列表,同时计数和测量值 共现强度:

WORD       FREQ         Dice(Jaccard) coefficient
brown      1286         0.3
break      729          0.2

1 个答案:

答案 0 :(得分:0)

搜索brownbreak

如果您将参数设置正确,Lucene将只返回包含两者的文档。