在LSA中使用SVD来获取潜在的语义信息。我对SVD矩阵的解释感到困惑。
我们首先构建一个文档术语矩阵。然后使用SVD将其分解为3个矩阵。
例如:
doc-term矩阵M1是M x N,其中:
M = the number of documents
N = the number of terms
M1被分解为:
M1 = M2 * M3 * M4, where:
M2: M x k
M3: k x k
M4: k x N
我看到如下解释:
M2的k 列代表类似语义的类别。 M4的k 行代表主题。
我的问题是:
为什么k被解释如上?我们怎么知道它是类似的语义和主题?
为什么类似的语义与主题相同?
为什么k在M2和M4之间的解释不同
如何解释M3?
我真的很困惑。似乎解释完全是武断的。是潜在意味着什么?
答案 0 :(得分:1)
我热烈推荐阅读Manning和Schutze在SNLP圣经中的信息检索章节。 在5页中,它解释了您想要了解的有关LSI和SVD的所有信息。
你会发现这样的段落: