为什么adajcency矩阵的特征值实际上是Textrank

时间:2016-09-02 04:33:20

标签: python nlp eigenvector pagerank summarization

以下是TextRank的路线:

  1. 要汇总的文件表示为tf-idf矩阵
  2. (tf-idf矩阵)*(tf-idf矩阵).Transpose =一些图的邻接矩阵,其顶点是 实际上是上述文件的句子
  3. 网页排名适用于此图表 - >返回每个句子的PR值
  4. 现在,此PR值实际上是该邻接矩阵的特征值
    这背后的物理意义或直觉是什么?

    为什么Eigen值实际上是排名?

    以下是网页排名的链接: http://www.cs.princeton.edu/~chazelle/courses/BIB/pagerank.htm

    以上是上页的摘录:
    PageRank或PR(A)可以使用简单的迭代算法计算,并且对应于网络规范化链接矩阵的主要特征向量。

    TextRank的链接: https://joshbohde.com/blog/document-summarization

1 个答案:

答案 0 :(得分:2)

首先,你的问题有点不对劲。 eignevalues 得分。相反,静态特征向量的条目是分数。

Textrank适用于graphical approach to words。它有许多变化,但它们有以下常见步骤:

  1. 创建一个加权图,其中顶点是实体(单词或句子),权重是实体之间的转换概率。

  2. 找到与图表相关联的stochastic matrix,并根据其固定分布对每个实体进行评分。

  3. 在这种情况下,图表构建如下。首先,构建矩阵,其中行是句子而列是单词。矩阵的条目由TF-IDF指定。为了找到句子之间的相似性,将归一化矩阵乘以其变换。这是因为,对于每两个句子和一个单词,基于每个句子中单词的TF-IDF的乘积,句子之间存在相似性,并且我们需要对所有单词进行总结。如果你仔细考虑一下,总结产品就是转置的矩阵乘法。

    所以现在我们有一个随机矩阵 P ,可以解释为从句子 i 到句子 j 的过渡概率。分数是静止分布 x ,这意味着

    P x = x = 1 x

    这意味着 x 是与特征值1相关联的特征向量。Perron-Frobenius Theorem,此特征向量存在于某些温和条件下,1是最大特征值。最后一部分基本上是Pagerank。