我对一个文本有很多疑问。例如“北美”,“欧洲”,“亚洲”(查询)和一个文本(例如关于美国的大文本(例如维基百科文章))。
现在我构建一个大文本的索引,之后我发送上面提到的查询。现在Lucene(版本4)计算得分。但正如我所知,通过不同的搜索,这不是真正的百分比,并且查询和文本之间没有真正的相似性。 使用TFIDFSimilarity我只得到非常小的分数(<0.05)
但我希望得到以下相似之处: “北美”==&gt; 90% “欧洲”,“亚洲”==&gt; 40%
..或其他东西,但它应该是真正的相似性。
我该怎么办?有人有什么想法吗?