奇异值分解(SVD)生成的矩阵对潜在语义分析(LSA)的意义/含义

时间:2014-01-08 06:58:32

标签: machine-learning nlp data-mining text-mining lda

在LSA中使用SVD来获取潜在的语义信息。我对SVD矩阵的解释感到困惑。

我们首先构建一个文档术语矩阵。然后使用SVD将其分解为3个矩阵。

例如:

doc-term矩阵M1是M x N,其中:

M = the number of documents
N = the number of terms

M1被分解为:

M1 = M2 * M3 * M4, where:

M2: M x k

M3: k x k

M4: k x N

我看到如下解释:

M2的k 代表类似语义的类别。 M4的k 代表主题

我的问题是:

  1. 为什么k被解释如上?我们怎么知道它是类似的语义和主题?

  2. 为什么类似的语义与主题相同?

  3. 为什么k在M2和M4之间的解释不同

  4. 如何解释M3?

  5. 我真的很困惑。似乎解释完全是武断的。是潜在意味着什么?

1 个答案:

答案 0 :(得分:1)

我热烈推荐阅读Manning和Schutze在SNLP圣经中的信息检索章节。 在5页中,它解释了您想要了解的有关LSI和SVD的所有信息。

你会发现这样的段落:

enter image description here