Lucene:如何获得查询和文本之间的相似性

时间:2013-03-24 00:33:31

标签: lucene information-retrieval similarity

我对一个文本有很多疑问。例如“北美”,“欧洲”,“亚洲”(查询)和一个文本(例如关于美国的大文本(例如维基百科文章))。

现在我构建一个大文本的索引,之后我发送上面提到的查询。现在Lucene(版本4)计算得分。但正如我所知,通过不同的搜索,这不是真正的百分比,并且查询和文本之间没有真正的相似性。 使用TFIDFSimilarity我只得到非常小的分数(<0.05)

但我希望得到以下相似之处: “北美”==&gt; 90%  “欧洲”,“亚洲”==&gt; 40%

..或其他东西,但它应该是真正的相似性。

我该怎么办?有人有什么想法吗?

0 个答案:

没有答案