mahout中的SVD输出解释

时间:2013-10-28 05:56:24

标签: mahout svd latent-semantic-indexing

我正在尝试在mahout中运行SVD作业。我有一个矩阵(比如A)创建(文档x术语)大小为372053 x 21338(21338没有独特的单词说N,372053文件说M)。所以我的矩阵A的大小(M * N)。我使用mahout运行svd,我得到了清理的特征向量(我给出了预期的等级为200说R)。现在我有一个由大小R * N创建的特征向量矩阵。

陈述SVD方程

A = U * S * V'(V'为V的转置)

我需要将矩阵A转换为新空间,以获取文档的压缩向量(我正在尝试实现LSI)

我从mahout SVD获得的输出是多少? (我想知道上面的等式)我读mailing list我们可以从生成的特征向量矩阵中的NamedVectors得到特征值。

请指导我如何从这里开始在新空间(大小为M * R)中生成文档术语矩阵A.

非常感谢任何帮助:)

1 个答案:

答案 0 :(得分:0)

可以找到在Mahout上使用随机SVD的LSI的良好起点here。 好的部分是该论文还描述了折叠过程,并根据svd方程明确输出格式。

该工作已集成在最新版本0.8中,可与SSVDCli作业一起使用,也可与mahout ssvd <options>

的mahout CLI一起使用