Question

我有一个大文本文件（语料库）的Lucene索引，对于一些n-gram我需要找到一个相似单词列表（共现列表）。

例如，我有一个unigram - “table”，术语频率为1500，我需要获得这样的共现列表，同时计数和测量值共现强度：

WORD       FREQ         Dice(Jaccard) coefficient
brown      1286         0.3
break      729          0.2

Answer 1

搜索brown和break。

如果您将参数设置正确，Lucene将只返回包含两者的文档。