我正在使用gensim库将LDA应用于一组文档。使用gensim我可以将LDA应用于语料库,无论术语权重是什么:binary,tf,tf-idf ...
我的问题是,原始LDA应使用的加权一词是什么?如果我理解正确,权重应该是术语频率,但我不确定。
答案 0 :(得分:1)
它应该是一个表示为“词袋”的语料库。或者,是的,术语计数列表。
正确的格式是first tutorial on the Gensim webpage中定义的corpus
格式(这些非常有用)。
即,如果您有Radim教程中定义的dictionary
以及以下文档,
doc1 = ['big', 'data', 'technique', 'lots', 'of', 'cash']
doc2 = ['this', 'document', 'has', 'words']
docs = [doc1, doc2]
那么你的语料库(用于LDA)应该是一个形式为(dictKey, count)
的元组列表的可迭代对象(如列表),其中dk
指的是一个字典键。 term,count是它在文档中出现的次数。这是通过
corpus = [dictionary.doc2bow(doc) for doc in docs]
doc2bow
函数意味着“文字到词袋”。