使用来自某些外部tf-idf矩阵和术语列表的gensim训练LDA模型

时间:2014-11-27 19:37:12

标签: python-3.x tf-idf lda topic-modeling gensim

我已经有一个tf-idf矩阵,其中包含用于文档的术语和列的行。现在我想用给定的术语 - 文档矩阵训练LDA模型。第一步似乎是使用gensim.matutils.Dense2Corpus将矩阵转换为语料库格式。但是如何构造id2word参数?我有条款列表(#terms ==#rows)但我不知道字典的格式,因此我无法从gensim.corpora.Dictionary.load_from_text等函数构造字典。有什么建议?谢谢。

1 个答案:

答案 0 :(得分:1)

id2word必须将每个id(整数)映射到term(字符串)。

换句话说,它必须支持id2word[123] == 'koala'

普通的Python dict是最简单的选择。