在“信息检索简介”一书的示例18.4 中。使用SVD分解术语 - 文档矩阵。我的问题是为什么Σ在这个例子中是一个5 * 5矩阵?它不应该是5 * 6矩阵吗?这是错的吗?
这是link of the Chapter 18 of the book Introduction to Information Retrieval。谢谢!
答案 0 :(得分:0)
这本书是对的。术语文档矩阵(维度DxT)被分成三个矩阵的乘积。中间矩阵(在本书中表示为\ Sigma)是密钥矩阵,其维度为TxT(在示例中T = 5)。
直观地说,您可以将此矩阵视为表示术语之间的关系。在最好的情况下,该矩阵的所有列向量应该是线性独立的,这意味着这形成了术语空间中的基础向量,并且这些术语之间没有依赖关系。但是,实际情况并非如此。您会发现此矩阵的等级通常比T小几个数量级(比如T'),这意味着有T-T'该矩阵中的线性相关列向量。
然后,通过仅考虑T' xT'然后可以采用该矩阵的低阶近似。术语矩阵。实际上,您可以获取矩阵的主要特征值,并使用旋转和缩放将这些矢量投影到这些特征向量上(视为新基础)。这正是谱分解或PCA(或LSA)的作用。