有什么方法可以将LDA中生成的主题映射到文档列表并确定其属于哪个主题?我对使用无监督学习对文档进行聚类并将其隔离到适当的聚类中感兴趣。
例如,在使用最佳超参数运行LDA模型后,我有10个主题。因此,它应该返回已经由用户输入的带有新句子或文档的预训练LDA模型定义的多个Topic。
我在等你们好的解决方案。 :)
Ps。我正在将Gensim用于NLP。
答案 0 :(得分:0)
使用Quanteda您可以按以下步骤实现
dtm <- convert(dfmat_news, to = "topicmodels")
lda <- LDA(dtm, k = 10). #10 topics in this case
然后,您可以使用主题topic()获得最可能的主题,并将其另存为文档级变量。
docvars(dfmat_news, 'topic') <- topics(lda)
head(topics(lda), 20)
此处是本教程:https://tutorials.quanteda.io/machine-learning/topicmodel/
希望它清晰实用:)