我是翻译研究的博士生,目前正在撰写我的论文。我在论文中使用LSA相似性接口作为分析方法。我的背景是语言学而不是计算机科学。我试图找到一个简单的LSA文档分类工具,但我找不到任何。我试着玩Gensim,我没有工作。我认为我的问题是将我的语料库(txt文件)与Gensim工具联系起来进行分析(我不知道如何执行此步骤)。如果有人能帮助我进行分析或指导我使用Gensim进行任何工具或简单的教程,我将不胜感激。
我想要执行以下操作:我想应用文档执行查询来检索从语料库到查询文档的最相关的5个文档。
我很绝望,我在这里发布这个问题犹豫不决。我确信在翻译研究中应用LSA会增加这一领域,这使我更加坚持不懈地找到一种方法来进行分析。
答案 0 :(得分:0)
现在唯一非常简单,用户友好的LSA工具是http://lsa.colorado.edu/。不幸的是,它只是一个基于网络的工具,它不允许你在自己的语料库上训练LSA。但根据您的需求,这可能无关紧要。
如果我正确理解您,您需要15个查询文档中的每一个与150个短篇故事中的每一个之间的文档 - 文档相似性分数(总共15 * 150 = 2250个相似性分数)。如果这些查询文档和短篇小说是英文的,那么您可以使用在许多LSA研究中使用的TASA语料库训练的LSA版本,如下所示:
如果你在Python或R中编程一点,LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.html和http://cran.r-project.org/web/packages/lsa/lsa.pdf,并且可以节省上述建议的手工劳动。另外,我知道你已经尝试过Gensim了,但在http://radimrehurek.com/gensim/tutorial.html有一个很好的教程,如果你还没有,你可以尝试一下。