Question

好的，所以我有点困惑。然而，这应该是一个简单明了的问题。

在针对整个语料库计算文档的TF-IDF矩阵后，我得到的结果与此非常相似：

array([[ 0.85...,  0.  ...,  0.52...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 1.  ...,  0.  ...,  0.  ...],
       [ 0.55...,  0.83...,  0.  ...],
       [ 0.63...,  0.  ...,  0.77...]])

如何使用此结果获取与搜索查询最相似的文档？基本上我正在尝试为维基百科重新创建一个搜索栏。根据搜索查询，我想从维基百科返回最相关的文章。在这种情况下，有6篇文章（行），搜索查询包含3个单词（列）。

我是否将所有结果添加到列中或添加所有行？更大的值是最相关的还是最相关的最低值？

Answer 1

您熟悉cosine similarity吗？对于每篇文章（向量A）计算其与查询（向量B）的相似性。然后按降序排列并选择最高结果。如果您愿意重构，gensim库非常好。

TF-IDF简单使用 - NLTK / Scikit Learn

1 个答案: