这条线在布林/佩奇1998年的论文中意味着什么?

时间:2017-06-06 23:19:38

标签: google-search pagerank

我不确定这是否属于SO,但我不知道其他SE网站会更合适。

在Brin和Page"大型超文本网络搜索引擎剖析"中,他们将PageRank算法中的变量 d 描述为概率随机冲浪者请求新的随机页面。在下一行,他们说:

  

一个重要的变化是仅将阻尼系数d添加到a   单页或一组页面。这允许个性化和   可以使故意误导系统几乎不可能   为了获得更高的排名。

这是什么意思?为什么他们会将阻尼系数仅添加到一个页面?

是否意味着随机冲浪者会在到达特定页面之前保持关注链接?我不认为这是有道理的,因为随机冲浪者可能陷入循环并且永远不会到达该特定页面。

1 个答案:

答案 0 :(得分:1)

关于PageRank的维基百科文章解释了阻尼因子的整体概念,但this forum post更好地解释了它。

最终任何网络冲浪者最终都会达到他/她感到无聊并做其他事情的程度。理论(假设我理解维基百科文章)是在查看给定页面时,用户有85%的机会点击其中一个链接到另一个页面。因此,连续观看两页的几率为85%,观看三页的几率为72.25%,观看四页的几率为61.4%等。

因此,如果您有链接到页面B的页面A和链接到页面C的页面B:

A - > B - > ç

然后,页面A的受欢迎程度有85%的可能性导致页面B变得流行,但只有72.25%的机会使页面C变得流行,因为用户有15%的机会随机进入某些页面其他网站则代之以每个决策点。

如果没有这种下降,我认为世界上的每个网站最终都会以无限的页面排名结束,因为页面排名会在每个页面传播到其他每个页面,如潮汐。通过阻止每一步的页面排名强度的进展,您可以确保从高级网站链接的网站获得排名提升,但不会通过一百个网点可以访问的网站。

你引用的位在他们的follow-on paper中解释得更多,他们解释说他们通常在计算页面排名时使用恒定阻尼因子,并假设有15%( 1 - .85)跳转到世界中任意页面的概率,所有可能的页面均等地获得这些跳跃,但您可以改为使用一组固定的目标页面(甚至是单个网页)页面)接收所有这些随机跳转。当您这样做时,您最终会根据与特定页面或页面组的距离来计算一个非常不同的页面排名。

例如,如果用户将特定页面设置为他/她的浏览器的起始页面,您可能会认为用户将单击主页按钮并在他或她感到无聊时返回该页面。因此,从该页面密切链接的页面将具有该用户的更高的个人页面排名。您可以通过添加诸如用户的书签,他们经常访问的页面等内容来创建更好的个性化排名。并且因为排名基于那些有限的"重新启动页面"以这种方式个性化,它们不容易被商业利益操纵,因为没有人可能从恰好在您的书签(或主页或其他)中的五个特定页面之一购买链接。