应用错误收集

我是翻译研究的博士生，目前正在撰写我的论文。我在论文中使用LSA相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的LSA文档分类工具，但我找不到任何。我试着玩Gensim，我没有工作。我认为我的问题是将我的语料库（txt文件）与Gensim工具联系起来进行分析（我不知道如何执行此步骤）。如果有人能帮助我进行分析或指导我使用Gensim进行任何工具或简单的教程，我将不胜感激。

我想要执行以下操作：我想应用文档执行查询来检索从语料库到查询文档的最相关的5个文档。

我有15个查询文件
我有一个（150个文本）的语料库。文本是短篇小说

我很绝望，我在这里发布这个问题犹豫不决。我确信在翻译研究中应用LSA会增加这一领域，这使我更加坚持不懈地找到一种方法来进行分析。

现在唯一非常简单，用户友好的LSA工具是http://lsa.colorado.edu/。不幸的是，它只是一个基于网络的工具，它不允许你在自己的语料库上训练LSA。但根据您的需求，这可能无关紧要。

如果我正确理解您，您需要15个查询文档中的每一个与150个短篇故事中的每一个之间的文档 - 文档相似性分数（总共15 * 150 = 2250个相似性分数）。如果这些查询文档和短篇小说是英文的，那么您可以使用在许多LSA研究中使用的TASA语料库训练的LSA版本，如下所示：

转到http://lsa.colorado.edu/
选择一对多比较
复制 - 粘贴＆＃34;主要文字＆＃34;中的一个短篇小说。框，并在＆＃34;文本中用空行分隔的15个查询进行比较＆＃34;框
重复每一篇短篇小说。一个巨大的痛苦？是。但如果你绝望......

如果你在Python或R中编程一点，LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.html和http://cran.r-project.org/web/packages/lsa/lsa.pdf，并且可以节省上述建议的手工劳动。另外，我知道你已经尝试过Gensim了，但在http://radimrehurek.com/gensim/tutorial.html有一个很好的教程，如果你还没有，你可以尝试一下。

LSA相似性接口

1 个答案: