应用错误收集

我不是NLP相关模型的专家。所以我可能在这里错过了一个简单的观点。所以请耐心等待。

我已经为每个主题获得了主题和相应的关键字。我想首先根据这些主题对文档进行聚类。也就是说，我想看哪个文档属于哪个主题。接下来，给定一个新文档，我需要找出它属于哪个文档集群。我该怎么做？

我认为我们需要通过用于获取主题的LDA模型传递新文档，然后使用生成的主题来衡量其与先前获得的主题的相似性。但是，我不确定这是否有效。例如，如果新文档是一个简短的文档，我不知道它是否可行。

任何帮助都非常有用。

谢谢。

BTW：我正在使用Python 2.7和用于LDA算法的gensim包