java - 如何用文件的tf * idf分数实现余弦相似度?

时间:2012-04-23 11:09:51

标签: java similarity cosine tf-idf

我有一组文档,我在其中搜索我的关键字。我已经计算了关键字和所有文档的tf-idf值。假设,我将我的tf-idf值存储在所有文档的数组中,如何使用它来计算余弦相似度?对代码的任何帮助表示赞赏!

1 个答案:

答案 0 :(得分:1)

您可以将数组视为vectors的集合,每个文档对应一个元素,其中元素数等于术语数。为了确定两个文档的相似性,以常规方式(相应矢量分量的乘积之和)计算相应矢量的scalar product,并将其除以两个矢量的范数的乘积。

在计算相似度之前对矢量进行归一化是切实可行的。在这种情况下,您只需使用文档向量的标量积,因为规范将是一个。