我正在尝试在mahout中运行SVD作业。我有一个矩阵(比如A)创建(文档x术语)大小为372053 x 21338(21338没有独特的单词说N,372053文件说M)。所以我的矩阵A的大小(M * N)。我使用mahout运行svd,我得到了清理的特征向量(我给出了预期的等级为200说R)。现在我有一个由大小R * N创建的特征向量矩阵。
陈述SVD方程
A = U * S * V'(V'为V的转置)
我需要将矩阵A转换为新空间,以获取文档的压缩向量(我正在尝试实现LSI)
我从mahout SVD获得的输出是多少? (我想知道上面的等式)我读mailing list我们可以从生成的特征向量矩阵中的NamedVectors得到特征值。
请指导我如何从这里开始在新空间(大小为M * R)中生成文档术语矩阵A.
非常感谢任何帮助:)
答案 0 :(得分:0)
可以找到在Mahout上使用随机SVD的LSI的良好起点here。 好的部分是该论文还描述了折叠过程,并根据svd方程明确输出格式。
该工作已集成在最新版本0.8中,可与SSVDCli
作业一起使用,也可与mahout ssvd <options>