解释文本挖掘主题分析的SVD

时间:2017-02-12 14:33:23

标签: nlp text-mining svd topic-modeling latent-semantic-indexing

背景

我正在通过从头开始构建自己的文本挖掘工具包来学习文本挖掘 - 最好的学习方法!

SVD

奇异值分解通常被认为是一种很好的方法:

  • 在2d / 3d
  • 中可视化高维数据(word文档矩阵)
  • 通过缩小维度提取关键主题

我花了大约一个月的时间来学习SVD。我必须承认大部分在线教程,论文,大学演讲幻灯片......甚至适当的印刷教科书也不容易消化。

到目前为止,我的理解是:SVD demystified (blog)

我想我已理解以下内容:

  • 任何(实际)矩阵可以唯一地分解为3倍 使用SVD的矩阵,A =U⋅S⋅V^ T
  • S是奇异值的对角矩阵,按幅度的降序
  • U和V ^ T是正交向量的矩阵

据我所知,我们可以通过将较小的S元素归零并重建原始数据来过滤掉不太重要的信息,从而减少维度。如果我想将尺寸减小到2,我只保留对角线S的2个最左上角的元素以形成新的矩阵S'

我的问题

要查看投影到缩小尺寸空间的文档,我看到人们使用S'⋅V^ T.为什么?什么是S'⋅V^ T的解释?

同样,为了看到主题,我看到人们使用U⋅S'。为什么?这是什么解释?

我的有限学校数学告诉我,我应该把它们视为变换(旋转,缩放)......但这也无助于澄清它。

**更新** 我在SVD demystified (blog)添加了我的博客解释的更新,这反映了我查看的一本教科书的基本原理,以解释为什么S'.V ^ T是文档视图,以及为什么US'是一个单词视图。仍然没有真正相信...

0 个答案:

没有答案