我不是NLP相关模型的专家。所以我可能在这里错过了一个简单的观点。所以请耐心等待。
我已经为每个主题获得了主题和相应的关键字。我想首先根据这些主题对文档进行聚类。也就是说,我想看哪个文档属于哪个主题。接下来,给定一个新文档,我需要找出它属于哪个文档集群。 我该怎么做 ?
我认为我们需要通过用于获取主题的LDA模型传递新文档,然后使用生成的主题来衡量其与先前获得的主题的相似性。但是,我不确定这是否有效。例如,如果新文档是一个简短的文档,我不知道它是否可行。
任何帮助都非常有用。
谢谢。
BTW:我正在使用Python 2.7和用于LDA算法的gensim包