Random Walk如何在图表上运行???为什么人们使用它?

时间:2011-09-14 16:40:46

标签: graph cluster-analysis mining

我是图形挖掘领域的博士生。 人们在遍历和计算图中节点之间的相似性时使用了图中的随机游走概念。 谁能告诉我随机游走如何在图表上工作? 特别是,当它用于测量图中任意两个任意节点/顶点时...... 等待有效和翔实的回复...:roll:

1 个答案:

答案 0 :(得分:0)

粗略地说,如果两个节点之间存在许多可能的路径,则与这两个节点之间的可能路径相比较的另一对节点相比,这两个节点之间更可能发生随机游走。从这个意义上讲,两个节点之间随机游走的概率将相似关系扩展到图中未连接的节点。

两个方面相当重要。首先,人们通常考虑一个特定的随机图,即通过归一化从节点输出的所有边(弧)权重得到的图得到的结果。还有一些方法,使用原始边缘权重执行一些采样程序,但我发现明显结构更有用。这导致马尔可夫图可以被认为是马尔可夫矩阵。其次,这种归一化方法改变了边权重的含义,即异常值可以突然变得接近其他节点。也就是说,如果节点A与节点B和C(并且没有其他节点)具有相似性10和40,并且节点Z与节点B和C(并且没有其他节点)的相似性1和4连接,那么两者都是并且Z将分别以转换概率0.2和0.8结束到B和C.人们必须小心这一点。

这种方法的一个优点是自然会考虑边缘权重;更高的边缘权重将转化为更高的概率,并且长度超过1的行程的概率非常自然地作为马尔可夫矩阵的乘法而下降。相比之下,在没有随机游走归一化步骤的情况下计算的两个节点之间的路径总数(或其加权版本)可能会非常快速地爆炸,并且会因边缘或三角形密度的局部变化而大幅偏斜。

使用这种公式的一种算法是聚类算法MCL。另一个应用是随机游走中介,可以再次应用于聚类。标签传播方法似乎使用了类似的想法。