LSA相似性接口

时间:2014-12-21 05:47:36

标签: lsa latent-semantic-indexing latent-semantic-analysis

我是翻译研究的博士生,目前正在撰写我的论文。我在论文中使用LSA相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的LSA文档分类工具,但我找不到任何。我试着玩Gensim,我没有工作。我认为我的问题是将我的语料库(txt文件)与Gensim工具联系起来进行分析(我不知道如何执行此步骤)。如果有人能帮助我进行分析或指导我使用Gensim进行任何工具或简单的教程,我将不胜感激。

我想要执行以下操作:我想应用文档执行查询来检索从语料库到查询文档的最相关的5个文档。

  1. 我有15个查询文件
  2. 我有一个(150个文本)的语料库。文本是短篇小说
  3. 我很绝望,我在这里发布这个问题犹豫不决。我确信在翻译研究中应用LSA会增加这一领域,这使我更加坚持不懈地找到一种方法来进行分析。

1 个答案:

答案 0 :(得分:0)

现在唯一非常简单,用户友好的LSA工具是http://lsa.colorado.edu/。不幸的是,它只是一个基于网络的工具,它不允许你在自己​​的语料库上训练LSA。但根据您的需求,这可能无关紧要。

如果我正确理解您,您需要15个查询文档中的每一个与150个短篇故事中的每一个之间的文档 - 文档相似性分数(总共15 * 150 = 2250个相似性分数)。如果这些查询文档和短篇小说是英文的,那么您可以使用在许多LSA研究中使用的TASA语料库训练的LSA版本,如下所示:

  • 转到http://lsa.colorado.edu/
  • 选择一对多比较
  • 复制 - 粘贴"主要文字"中的一个短篇小说。框,并在"文本中用空行分隔的15个查询进行比较"框
  • 重复每一篇短篇小说。一个巨大的痛苦?是。但如果你绝望......

如果你在Python或R中编程一点,LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.htmlhttp://cran.r-project.org/web/packages/lsa/lsa.pdf,并且可以节省上述建议的手工劳动。另外,我知道你已经尝试过Gensim了,但在http://radimrehurek.com/gensim/tutorial.html有一个很好的教程,如果你还没有,你可以尝试一下。