余弦相似度和PageRank

时间:2018-01-22 08:25:38

标签: information-retrieval cosine-similarity pagerank cosine

假设我有搜索引擎使用余弦相似性来检索页面。 但是,没有idf部分,只有tf。 如果我为余弦的公式添加Page Rank。 公式可能会从一个语料库变为另一个语料库吗?

示例 -

  

语料库A - 文件A,文件B ---> A和B之间有一条线。

     

语料库A - 文件B ---> A和B之间有一条线。

对于语料库,页面B的得分会有所不同吗?

感谢。

1 个答案:

答案 0 :(得分:1)

你的问题并不完全清楚。但是,让我试着解决你的问题。

当你说,你只是在余弦相似度计算中使用tf而不是tf-idf时,我想你是通过组成词的频率来呈现网页。然后你说如果你把每个网页的PageRank值加到基于余弦相似度计算的相似度得分上,公式是否会改变?我想在这里你几乎没有含糊之处。公式永远不会改变,但是合并得分可能因语料库而异。此外,您提供的示例不明确。

所以,这可能是你想知道的事情:

如果计算不同语料库的余弦相似度或PageRank,则分数可能会根据语料库分布而有所不同。 PageRank是在一组被视为整个网页的网页上计算出来的,所以如果你考虑两个不同的语料库,那么网页的PageRank分数会有所不同!