我正在尝试在我训练过的lda模型上实现Topic Tiling算法。 对于算法,我需要在看不见的文档中分配给单个单词的所有ID。然后,我将计算给定单词的最常见主题ID,并将其指定为该单词的模式。
我正在使用gensim lib,因此很容易获得topic-> word dist,其中的单词以其概率给出。但是,我如何得到"将哪些主题分配给单个世界",意思是word->主题dists。
Example:
s = "Banks are closed on Sunday"
Topic -> Word Dist from Gensim:
TopicTag -> Prob*Word
Topic 0 -> 0,3*Bank, 0,2*are
Topic 1 -> 0,2*closed, 0,1*Sunday
Topic 2 -> 0,4*Sunday, 0,3*on
What I want:
word -> TopicTag(Frequency that given word was assigned with the specified topic tag)
Banks -> Topic1(2), Topic2(2)
Closed -> Topic0(1),Topic1 (4)
请注意我对解析主题不感兴趣 - >来自Gensim的Word Dist结果,我有兴趣找到一种准确的方式,即我的模型将(众多)主题分配给将出现在看不见的文档中的每个单词。
提前致谢。
答案 0 :(得分:1)
我也有兴趣知道答案。虽然,你可以得到主题 - >没有解析的Word Dist:
<div my-controller="callMe"></div>
现在y的每一行都会为你提供主题的文字分发
答案 1 :(得分:1)
您可以从lda_model.get_lambda()
获取字主题权重矩阵。
另请参阅此邮件列表主题:https://groups.google.com/d/msg/gensim/6N9-Y5KVQu0/soFqkEopMWgJ