我有一个大文本文件(语料库)的Lucene索引,对于一些n-gram我需要找到一个相似单词列表(共现列表)。
例如,我有一个unigram - “table”,术语频率为1500,我需要获得这样的共现列表,同时计数和测量值 共现强度:
WORD FREQ Dice(Jaccard) coefficient
brown 1286 0.3
break 729 0.2
答案 0 :(得分:0)
搜索brown
和break
。
如果您将参数设置正确,Lucene将只返回包含两者的文档。