使用hadoop的网页排名

时间:2012-10-21 03:47:24

标签: pagerank

我希望获得使用Hadoop和页面排名的一些经验。我完成了使用Hadoop的页面排名算法的简单实现。现在,我计划分析更改少数算法参数的可能影响,并研究它如何影响页面排名。目前我正在分析悬空节点如何影响页面排名。关于可以对此pagerank做出哪些其他变化的任何建议将极大地帮助我获得更深入的知识。

由于

1 个答案:

答案 0 :(得分:2)

据我所知,有几种变体:

  • 加权PageRank算法:为更重要(流行)的页面分配更大的排名值,而不是将页面的排名值均匀地划分到其外链接页面中。
  • Topic-sensitive pagerank

      

    在用于提高搜索查询结果排名的原始PageRank算法中,使用Web的链接结构计算单个PageRank向量来捕获   网页的相对重要性,独立于任何特定的搜索查询。为了产生更准确的搜索结果,   我们建议使用一组代表性主题计算一组PageRank向量,以便更准确地捕获   关于特定主题的重要概念。

  •   
  • ž。 Gy¨ongi,H。Garcia-Molina和J. Pedersen,“Combating link spam with trustrank,”
  •   
  • 您也可以尝试HITS(超级链接环境中的权威来源)。
  •   
  • 更进一步,您可以尝试将pagerank创意应用于其他域,例如TupleRank: Ranking Relational Databases using Random Walks on Extended K-partite Graphs
  •