Question

我正在尝试在我训练过的lda模型上实现Topic Tiling算法。对于算法，我需要在看不见的文档中分配给单个单词的所有ID。然后，我将计算给定单词的最常见主题ID，并将其指定为该单词的模式。

我正在使用gensim lib，因此很容易获得topic-＆gt; word dist，其中的单词以其概率给出。但是，我如何得到＆＃34;将哪些主题分配给单个世界＆＃34;，意思是word-＆gt;主题dists。

Example:
s = "Banks are closed on Sunday"

Topic -> Word Dist from Gensim:
TopicTag -> Prob*Word
Topic 0 -> 0,3*Bank, 0,2*are
Topic 1 -> 0,2*closed, 0,1*Sunday
Topic 2 -> 0,4*Sunday, 0,3*on

What I want:
word -> TopicTag(Frequency that given word was assigned with the specified topic tag)
Banks -> Topic1(2), Topic2(2)
Closed -> Topic0(1),Topic1 (4)

请注意我对解析主题不感兴趣 - ＆gt;来自Gensim的Word Dist结果，我有兴趣找到一种准确的方式，即我的模型将（众多）主题分配给将出现在看不见的文档中的每个单词。

提前致谢。

Answer 1

我也有兴趣知道答案。虽然，你可以得到主题 - ＆gt;没有解析的Word Dist：

<div my-controller="callMe"></div>

现在y的每一行都会为你提供主题的文字分发

Answer 2

您可以从lda_model.get_lambda()获取字主题权重矩阵。另请参阅此邮件列表主题：https://groups.google.com/d/msg/gensim/6N9-Y5KVQu0/soFqkEopMWgJ

LDA Gensim Word - ＆gt;主题ID分布而不是主题 - ＆gt;单词分发

2 个答案: