我想在一组文件上应用LDA。它假设计算文档属于某个主题的概率。我做了以下事情:
tfidf_vectorizer = TfidfVectorizer(min_df=12, analyzer="word")
tfidf = tfidf_vectorizer.fit_transform(data_samples)
lda = LatentDirichletAllocation(n_topics=5, max_iter=5,
learning_method='online',
learning_offset=50.,
random_state=0)
lda.fit(tfidf)
现在我想得到data_sample
中某个文档属于某个主题的概率,例如,因为我使用了5个主题:[0.2, 0.1 ,0.1, 0.1, 0.5]
,关于LDA的文档很弱,你知道这些信息是否易于获取?
问题:我有同样的问题,有没有人想到这个? 我不知道它不允许我在这里添加评论,但它让我添加到别人的帖子中。
答案 0 :(得分:3)
我最近遇到了同样的问题。您可以使用以下代码将模型应用于每个样本:lda.transform(tfidf)
请注意,您需要使用vector tfidf。
我认为“变换”这个名称来自data transformation
的统计概念