确定新文档属于哪个文档集群

时间:2017-06-20 16:01:51

标签: python-2.7 nltk gensim

我不是NLP相关模型的专家。所以我可能在这里错过了一个简单的观点。所以请耐心等待。

我已经为每个主题获得了主题和相应的关键字。我想首先根据这些主题对文档进行聚类。也就是说,我想看哪个文档属于哪个主题。接下来,给定一个新文档,我需要找出它属于哪个文档集群。 我该怎么做 ?

我认为我们需要通过用于获取主题的LDA模型传递新文档,然后使用生成的主题来衡量其与先前获得的主题的相似性。但是,我不确定这是否有效。例如,如果新文档是一个简短的文档,我不知道它是否可行。

任何帮助都非常有用。

谢谢。

BTW:我正在使用Python 2.7和用于LDA算法的gensim包

0 个答案:

没有答案