应用错误收集

我对一个文本有很多疑问。例如“北美”，“欧洲”，“亚洲”（查询）和一个文本（例如关于美国的大文本（例如维基百科文章））。

现在我构建一个大文本的索引，之后我发送上面提到的查询。现在Lucene（版本4）计算得分。但正如我所知，通过不同的搜索，这不是真正的百分比，并且查询和文本之间没有真正的相似性。使用TFIDFSimilarity我只得到非常小的分数（<0.05）

但我希望得到以下相似之处： “北美”==＆gt; 90％ “欧洲”，“亚洲”==＆gt; 40％

..或其他东西，但它应该是真正的相似性。

我该怎么办？有人有什么想法吗？