用于潜在语义分析的“预构建”矩阵

时间:2010-11-06 04:59:22

标签: nlp machine-learning latent-semantic-indexing gensim

我想对我正在构建的小应用程序使用潜在语义分析,但我不想自己构建矩阵。 (部分是因为我所拥有的文件不会成为一个非常好的培训集合,因为它们有点短而且异构,部分是因为我刚买了一台新电脑而且我觉得它是安装线性代数的婊子等等我需要的图书馆。)

是否有可用的“默认”/预构建LSA实现?例如,我正在寻找的东西包括:

  • 默认U,S,V矩阵(即,如果D是来自某些训练集的术语 - 文档矩阵,则D = USV ^ T是奇异值分解),因此给定任何查询向量q,我可以使用这些矩阵用于计算q我自己的LSA投影。
  • 给定查询向量q的一些黑盒LSA算法返回q的LSA投影。

1 个答案:

答案 0 :(得分:2)

您可能对Python的Gensim框架感兴趣;值得注意的是,它有an example on building the appropriate matrices from English Wikipedia