以下是TextRank的路线:
现在,此PR值实际上是该邻接矩阵的特征值
这背后的物理意义或直觉是什么?
为什么Eigen值实际上是排名?
以下是网页排名的链接: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm
以上是上页的摘录:
PageRank或PR(A)可以使用简单的迭代算法计算,并且对应于网络规范化链接矩阵的主要特征向量。
TextRank的链接: https://joshbohde.com/blog/document-summarization
答案 0 :(得分:2)
首先,你的问题有点不对劲。 eignevalues 不得分。相反,静态特征向量的条目是分数。
Textrank适用于graphical approach to words。它有许多变化,但它们有以下常见步骤:
创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转换概率。
找到与图表相关联的stochastic matrix,并根据其固定分布对每个实体进行评分。
在这种情况下,图表构建如下。首先,构建矩阵,其中行是句子而列是单词。矩阵的条目由TF-IDF指定。为了找到句子之间的相似性,将归一化矩阵乘以其变换。这是因为,对于每两个句子和一个单词,基于每个句子中单词的TF-IDF的乘积,句子之间存在相似性,并且我们需要对所有单词进行总结。如果你仔细考虑一下,总结产品就是转置的矩阵乘法。
所以现在我们有一个随机矩阵 P ,可以解释为从句子 i 到句子 j 的过渡概率。分数是静止分布 x ,这意味着
P x = x = 1 x 。
这意味着 x 是与特征值1相关联的特征向量。Perron-Frobenius Theorem,此特征向量存在于某些温和条件下,1是最大特征值。最后一部分基本上是Pagerank。