我已经有一个tf-idf矩阵,其中包含用于文档的术语和列的行。现在我想用给定的术语 - 文档矩阵训练LDA模型。第一步似乎是使用gensim.matutils.Dense2Corpus
将矩阵转换为语料库格式。但是如何构造id2word
参数?我有条款列表(#terms ==#rows)但我不知道字典的格式,因此我无法从gensim.corpora.Dictionary.load_from_text
等函数构造字典。有什么建议?谢谢。
答案 0 :(得分:1)
id2word
必须将每个id(整数)映射到term(字符串)。
换句话说,它必须支持id2word[123] == 'koala'
。
普通的Python dict
是最简单的选择。