gensim中原始LDA的术语加权

时间:2014-09-18 14:28:04

标签: python lda topic-modeling gensim

我正在使用gensim库将LDA应用于一组文档。使用gensim我可以将LDA应用于语料库,无论术语权重是什么:binary,tf,tf-idf ...

我的问题是,原始LDA应使用的加权一词是什么?如果我理解正确,权重应该是术语频率,但我不确定。

1 个答案:

答案 0 :(得分:1)

它应该是一个表示为“词袋”的语料库。或者,是的,术语计数列表。

正确的格式是first tutorial on the Gensim webpage中定义的corpus格式(这些非常有用)。

即,如果您有Radim教程中定义的dictionary以及以下文档,

doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]

那么你的语料库(用于LDA)应该是一个形式为(dictKey, count)的元组列表的可迭代对象(如列表),其中dk指的是一个字典键。 term,count是它在文档中出现的次数。这是通过

为您完成的
corpus = [dictionary.doc2bow(doc) for doc in docs]

doc2bow函数意味着“文字到词袋”。