好的,所以我有点困惑。然而,这应该是一个简单明了的问题。
在针对整个语料库计算文档的TF-IDF矩阵后,我得到的结果与此非常相似:
array([[ 0.85..., 0. ..., 0.52...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 1. ..., 0. ..., 0. ...],
[ 0.55..., 0.83..., 0. ...],
[ 0.63..., 0. ..., 0.77...]])
如何使用此结果获取与搜索查询最相似的文档?基本上我正在尝试为维基百科重新创建一个搜索栏。根据搜索查询,我想从维基百科返回最相关的文章。在这种情况下,有6篇文章(行),搜索查询包含3个单词(列)。
我是否将所有结果添加到列中或添加所有行?更大的值是最相关的还是最相关的最低值?
答案 0 :(得分:5)
您熟悉cosine similarity吗?对于每篇文章(向量A)计算其与查询(向量B)的相似性。然后按降序排列并选择最高结果。如果您愿意重构,gensim库非常好。