Pagerank - 麻烦

时间:2011-01-20 10:33:06

标签: algorithm math pagerank

我将向您展示2个场景(N.B. d =阻尼因子= 0.5)

第一种情况:假设有4个节点A, B, C, D

  • B, C, D链接A

PageRank是: PR(A)=0.5 + 0.5*(PR(B)+PR(C)+PR(D))

我可以通过将0.25放在PR(B)=PR(C)=PR(D)上来解决这个等式,我将获得0.875的值。我不需要解决任何系统

第二种情况:假设有4个节点A, B, C, D

    {li} A链接BC {li> B C 上的链接 {li> C A 上的链接

这样PageRank将是:

PR(A)=0.5 + 0.5 * PR(C)

PR(B)=0.5 + 0.5 * ((PR(A))/(2))

PR(C)=0.5 + 0.5 * ((PR(A))/(2) + PR(B))

我必须解决此系统才能获得结果。我没有将1/N放在PR(A), PR(B), PR(C) and PR(D)

事实上,我在互联网上搜索解决方案,其价值是:

$ PR(A)= 14/13 = 1.07692308 $

$ PR(B)= 10/13 = 0.76923077 $

$ PR(C)= 15/13 = 1.15384615 $

那么为什么在两种类似的场景中我会使用两种不同的行为?

希望有人可以帮助我:)干杯

2 个答案:

答案 0 :(得分:1)

由于第一个问题的对称性,这两种情况是不同的:B,C和D链接到相同页面并且从相同页面链接(即它们都指向A而没有指向它们)。因此,它们的页面排名将相同,这为您提供PR(B)= PR(C)= PR(D)的额外约束,使您能够轻松解决问题。

第二个问题没有对称性,必须长期解决。

答案 1 :(得分:1)

假设有四个网页的小宇宙:A,B,C和D.忽略从页面到自身的链接,或从一个页面到另一个页面的多个出站链接。 PageRank初始化为所有页面的相同值。在PageRank的原始形式中,所有页面上PageRank的总和是当时Web上的页面总数,因此本例中的每个页面的初始PageRank都为1.但是,PageRank的更高版本和本节的其余部分假设概率分布在0和0之间 因此,每页的初始值为0.25。

在下一次迭代时,从给定页面转移到其出站链接目标的PageRank在所有出站链接中平均分配。

如果系统中的唯一链接是从B,C和D页到A,则每次链接会在下一次迭代时将0.25 PageRank传输到A,总计0.75。

PR(A)= PR(B)+ PR(C)+ PR(D)

假设页面B具有指向页面C和A的链接,而页面C具有指向页面A的链接,而页面D具有指向所有三个页面的链接。因此,在下一次迭代时,页面B将其现有值的一半或0.125转移到页面A,将另一半或0.125转移到页面C.页面C将其所有现有值0.25转移到唯一由于D有三个出站链接,它会将现有值的三分之一或大约0.083转移到A.在此迭代完成时,页面A的PageRank为0.458。

PR(A)= \ frac {PR(B)} {2} + \ frac {PR(C)} {1} + \ frac {PR(D)} {3}。\,

换句话说,出站链接赋予的PageRank等于文档自己的PageRank分数除以出站链接数L()。

PR(A)= \ frac {PR(B)} {L(B)} + \ frac {PR(C)} {L(C)} + \ frac {PR(D)} {L(D )}。

在一般情况下,任何页面的PageRank值都可以表示为:

PR(u)= \ sum_ {v \ in B_u} \ frac {PR(v)} {L(v)},

即。页面u的PageRank值取决于集合Bu中包含的每个页面v的PageRank值(包含链接到页面u的所有页面的集合),除以页面v中链接的数量L(v)。

For further queries visit here