Question

我正在使用gensim库将LDA应用于一组文档。使用gensim我可以将LDA应用于语料库，无论术语权重是什么：binary，tf，tf-idf ...

我的问题是，原始LDA应使用的加权一词是什么？如果我理解正确，权重应该是术语频率，但我不确定。

Answer 1

它应该是一个表示为“词袋”的语料库。或者，是的，术语计数列表。

正确的格式是first tutorial on the Gensim webpage中定义的corpus格式（这些非常有用）。

即，如果您有Radim教程中定义的dictionary以及以下文档，

doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]

那么你的语料库（用于LDA）应该是一个形式为(dictKey, count)的元组列表的可迭代对象（如列表），其中dk指的是一个字典键。 term，count是它在文档中出现的次数。这是通过

为您完成的

corpus = [dictionary.doc2bow(doc) for doc in docs]

doc2bow函数意味着“文字到词袋”。