信息检索 - 邻接矩阵图草图,传送概率,计算PageRank

时间:2014-07-17 10:55:36

标签: matrix transition probability information-retrieval pagerank

我正在做一些关于信息检索的事情并且正在进行考试,我绝对无能为力。首先,任何人都可以向我推荐最简单,最好的描述可能是PageRank在信息检索中的实际情况吗?也许甚至是一个很好的短视频或你自己的描述。我知道Google使用或者确实使用过它。

我知道这里有很多问题,但我可以在很短的时间内尽可能多地使用。

所以我的第一个问题(取自过去的论文,并制作我自己的例子):

我想要一张如下表:

    A   B   C
A   0   1   0
B   1   0   1
C   0   0   0

并创建一个图表。我相信这是正确但不确定的(我可以使用“是的,是正确的”或“不是”: enter image description here

如果我得到了如下图表: enter image description here

表格如下:

    A   B   C
A   0   1   0
B   0   0   1
C   0   0   0

这是对的吗?如果没有,我可以请求帮助并在某处进行描述吗?我正在阅读的讲座并不擅长解释,而且我的讲师也不善于帮助。

接下来,我可能会被要求在第一张桌子上使用 传送概率 。这个我迫切需要帮助。如果概率(特殊符号)= 1/2,这是否意味着乘以一切,包括表中的0,如0x1 / 2?也是1x1 / 2?这是针对转移概率矩阵。

接下来是,如何从上面的矩阵计算PageRank。使用矩阵乘法。在单词或伪代码中。

我想知道的另一个问题是,如果用户关注其他用户,那么Twitter上的用户页面排名会增加吗?我假设这不是因为他们没有关注用户?

如果您从一个随机用户开始并点击另一个随机角色,用户的Pagerank是否取决于您找到该用户的频率,直到您找到它们为止?我认为这个绝对不是真的。因为他们可能不会关注所述用户。

我知道这要问很多。有没有人有我可以遵循的教程,这些教程不是很复杂,我可以看一下并让它掌握在今天吗?

谢谢,我非常感谢你的帮助。我知道没有一个人可以回答所有人,但可以帮助一些人。

1 个答案:

答案 0 :(得分:0)

这是我回答你的问题:

良好的学习资源: http://en.wikipedia.org/wiki/PageRank#Simplified_algorithm(毫无疑问,你已经看到了,但这是一个非常好的)。从那里开始,首先了解算法,然后执行。

这可能是一个很好的简单方法来实现? http://pr.efactory.de/e-pagerank-algorithm.shtml

或者: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm

我猜你可以使用Python(普通学校语言)进行编程,在这种情况下,您可能会对处理具有pagerank计算的图形的程序包感兴趣:http://networkx.lanl.gov/reference/generated/networkx.algorithms.link_analysis.pagerank_alg.pagerank.html。如果你必须编写自己的pagerank算法(非常可行),你可以使用它来检查结果。

对于矩阵 - >图转换问题:您的教授需要指定矩阵中方向性的编码方式。 B,C中的1是否指定从B到C或从C到B的链接?我的猜测是B到C.如果这是真的,那么你的第一张图是错误的,但第二张图是可以的。方向性在PageRank中非常重要。

我认为传送概率是执行新步骤的随机游走者将跳转到图中的随机节点的概率。它位于维基百科页面的“阻尼因子”下。我不知道它如何与矩阵中的数字相乘。

对于推特问题 - 是的,我认为你做得对。链接到(或者可能跟随)第二个人并没有直接对第一个人的页面排名做任何事情,但它可能会增加第二个人的页面排名。在实践中,可能会产生次要影响,例如第二个人注意到第一个人很有趣并且追随他们。

倒数第二个问题 - 是的,Pagerank算法的一个公式是随机链接,其中遇到节点(页面)进入pagerank的频率。

祝你好运!