评级网站的算法/技术(PageRank除外)

时间:2011-10-16 12:11:10

标签: algorithm rank pagerank

我正在寻找能够展示单个网页重要性的算法/技术。抛开PageRank,还有其他方法可以根据内容,结构和超链接进行这样的评分吗?

我不只是在谈论从www.foo.com到www.bar.com的连接,如PageRank,还有www.foo.com/bar到www.foo.com/baz等等(旁边)为这些需求调整PageRank的事实)

我如何“定义”重要性:在这种情况下,我认为“这一方面对用户的重要性如何,以及对网站其他部分的重要性” 。
例如。在首页上宣布了一个圣诞节抽奖活动,只有一个链接通往该网站对用户和网站更为重要。一个印记,其中包含来自每个站点的链接(因为它主要位于页脚中的某个位置)并不重要,尽管它有许多链接。对于作为“单位”的网站而言,印记也不重要,因为它不会为网页的内容提供任何实际价值(=提供信息,销售产品,一般服务等)

2 个答案:

答案 0 :(得分:1)

另一个着名的算法是Hubs and Authorities (HITS)。基本上,您将页面归类为 Hub (具有大量出站链接的页面)和 Authorities (具有大量入站链接的页面)。

但你应该真正定义你的重要性。真正重要的意思是什么? PageRank 根据入站链接定义它。那是 PageRank 定义。

如果您将重要定义为拥有照片,因为您喜欢摄影。然后,您可以提供重要的指标,例如页面中的照片数量。另一个指标可能是来自摄影网站的入站链接数(例如flickr.com500px,...)

使用 important 的定义,您可以使用`1-(入站链接数除以网站上的页数)。这给你一个0到1之间的数字.0表示不重要,1表示重要。

使用此指标,您的印记出现在网站的所有页面上,其重要性为0.您的圣诞节销售页面只有一个链接,几乎有1个

答案 1 :(得分:1)

还有SALSA比HITS更稳定[因此它受垃圾邮件的影响更小]。

由于您也对页面的上下文感兴趣,您可能希望了解Haveliwala在topic sensitive page rank上的工作